Microsoft cảnh báo kỹ thuật bẻ khóa buộc mô hình AI cung cấp công thức tạo chất nổ, vũ khí sinh học

Nhịp đập khoa học - Ngày đăng : 14:35, 01/07/2024

Kẻ xấu sẽ không mất nhiều thời gian để khiến mô hình ngôn ngữ lớn (mô hình AI) cung cấp công thức về đủ thứ nguy hiểm, chẳng hạn chất nổ hay vũ khí sinh học.
Nhịp đập khoa học

Microsoft cảnh báo kỹ thuật bẻ khóa buộc mô hình AI cung cấp công thức tạo chất nổ, vũ khí sinh học

Sơn Vân 01/07/2024 14:35

Kẻ xấu sẽ không mất nhiều thời gian để khiến mô hình ngôn ngữ lớn (mô hình AI) cung cấp công thức về đủ thứ nguy hiểm, chẳng hạn chất nổ hay vũ khí sinh học.

Với kỹ thuật bẻ khóa Skeleton Key, người dùng có thể thuyết phục các mô hình ngôn ngữ lớn như Llama 3 của Meta Platforms, Gemini Pro của Google và GPT 3.5 của OpenAI cung cấp cho họ công thức chế tạo một quả bom lửa thô sơ hoặc thứ đáng sợ hơn, theo bài viết trên blog từ Mark Russinovich - Giám đốc công nghệ Microsoft Azure (dịch vụ điện toán đám mây của Microsoft).

Mark Russinovich cho biết kỹ thuật này hoạt động thông qua chiến lược gồm nhiều bước, buộc một mô hình ngôn ngữ lớn phải bỏ qua các rào chắn bảo vệ của nó. Các cơ chế bảo vệ giúp mô hình ngôn ngữ lớn phân biệt giữa các yêu cầu độc hại với lành tính.

Ông viết: “Giống như tất cả kỹ thuật bẻ khóa, Skeleton Key hoạt động bằng cách thu hẹp khoảng cách giữa những gì mô hình ngôn ngữ lớn có thể thực hiện (dựa trên thông tin người dùng cung cấp) và những gì nó sẵn sàng làm”.

Tuy nhiên, Skeleton Key có sức tàn phá lớn hơn các kỹ thuật bẻ khóa khác, vốn chỉ có thể lấy thông tin từ các mô hình ngôn ngữ lớn “gián tiếp hoặc bằng cách giải mã”. Trong khi đó, Skeleton Key có thể buộc các mô hình ngôn ngữ lớn tiết lộ thông tin về các chủ đề từ chất nổ, vũ khí sinh học đến tự làm hại bản thân thông qua các gợi ý bằng ngôn ngữ tự nhiên đơn giản. Những kết quả đầu ra này thường tiết lộ toàn bộ kiến ​​thức của mô hình ngôn ngữ lớn về bất kỳ chủ đề nhất định nào.

Microsoft đã thử nghiệm Skeleton Key trên một số mô hình ngôn ngữ lớn và nhận thấy nó hoạt động trên Meta Llama3, Google Gemini Pro, GPT-3.5 Turbo và GPT-4o của OpenAI, Mistral Large, Anthropic Claude 3 Opus và Cohere Commander R Plus. Theo thử nghiệm, chỉ GPT-4 cho thấy khả năng chống lại kỹ thuật bẻ khóa của Skeleton Key ở một mức độ nào đó, tức là không dễ dàng bị lừa để cung cấp thông tin nguy hiểm.

Mark Russinovich cho biết Microsoft đã thực hiện một số cập nhật phần mềm để giảm thiểu tác động từ Skeleton Key với các mô hình ngôn ngữ lớn của riêng họ, gồm cả trợ lý trí tuệ nhân tạo (AI) Copilot.

Song, lời khuyên chung của Mark Russinovich dành cho các công ty xây dựng hệ thống AI là hãy thiết kế chúng với các cơ chế bảo vệ bổ sung. Ông cũng lưu ý rằng họ nên giám sát đầu vào và đầu ra của hệ thống AI, đồng thời thực hiện kiểm tra để phát hiện nội dung lạm dụng.

microsoft-canh-bao-ky-thuat-be-khoa-buoc-mo-hinh-ai-cung-cap-cong-thuc-tao-chat-no-vu-khi-sinh-hoc.jpg
Skeleton Key có thể khiến buộc các mô hình ngôn ngữ lớn tiết lộ những bí mật đen tối nhất của chúng - Ảnh: Reuters

Các mô hình ngôn ngữ lớn tiên tiến rơi vào tay kẻ xấu sẽ gây ra rủi ro gì?

Cộng đồng tình báo Mỹ, các tổ chức nghiên cứu và học giả ngày càng lo ngại về những rủi ro do các tác nhân xấu nước ngoài được tiếp cận với mô hình ngôn ngữ lớn tiên tiến gây ra.

Theo Reuters, chính quyền Biden đã sẵn sàng mở ra một mặt trận mới trong nỗ lực bảo vệ AI của Mỹ khỏi Trung Quốc và Nga với kế hoạch sơ bộ nhằm thiết lập các rào chắn xung quanh các mô hình AI tiên tiến nhất. Đó là phần mềm cốt lõi của các hệ thống AI như ChatGPT.

Các nhà nghiên cứu của chính phủ và khu vực tư nhân lo ngại các đối thủ cạnh tranh với Mỹ có thể sử dụng các mô hình AI này khai thác lượng lớn văn bản và hình ảnh để tóm tắt thông tin và tạo nội dung, rồi thực hiện các cuộc tấn công mạng mạnh mẽ hoặc thậm chí tạo ra vũ khí sinh học nguy hiểm.

Dưới đây là một số mối đe dọa do kẻ xấu sử dụng mô hình AI tiên tiến có thể gây ra:

Deepfake và thông tin sai lệch

Deepfake đang xuất hiện ngày càng nhiều trên mạng xã hội, làm mờ ranh giới giữa sự thật và hư cấu trong thế giới phân cực của chính trị Mỹ.

Deepfake là một từ ghép của deep learning (học sâu) và fake (giả mạo), thường chỉ các phương pháp và công nghệ sử dụng AI và học sâu để tạo ra hoặc chỉnh sửa nội dung video và âm thanh sao cho giống người thật. Cụ thể hơn, deepfake thường được sử dụng để thay đổi gương mặt và giọng điệu của các người nổi tiếng trong video hoặc tạo ra video giả mạo họ trong các tình huống hoặc hành động mà họ không thực sự tham gia.

Deepfake đã trở thành một vấn đề nghiêm trọng trong thế giới truyền thông và giải trí, vì được sử dụng để tạo ra thông tin sai lệch, lừa dối người xem, hoặc xâm phạm quyền riêng tư của người khác.

Dù phương tiện tổng hợp như vậy đã có từ vài năm trước nhưng nó xuất hiện nhiều hơn trong năm qua, bởi một loạt công cụ AI tạo sinh mới như Midjourney giúp việc tạo deepfake dễ dàng và trông thuyết phục hơn.

Công cụ AI từ OpenAI, Microsoft và các công ty khác có thể được sử dụng để tạo ra hình ảnh thúc đẩy thông tin sai lệch về cuộc bầu cử hoặc bỏ phiếu, dù mỗi hãng đều có chính sách chống lại việc tạo ra nội dung sai lệch, những nhà nghiên cứu nói trong một báo cáo vào tháng 3.

Một số chiến dịch đưa thông tin sai lệch chỉ đơn giản khai thác khả năng của AI để bắt chước các bài báo có thật.

Dù các nền tảng truyền thông xã hội lớn như Facebook, YouTube, X đã nỗ lực cấm và xóa deepfake, nhưng hiệu quả của chúng trong việc kiểm soát những nội dung đó lại khác nhau.

Ví dụ năm ngoái, một trang tin tức Trung Quốc sử dụng nền tảng AI tạo sinh đưa tin sai sự thật (từng lan truyền trước đó) rằng Mỹ đang điều hành một phòng thí nghiệm ở Kazakhstan để tạo ra vũ khí sinh học nhằm mục đích chống lại Trung Quốc. Bộ An ninh Nội địa Mỹ (DHS) hé lộ thông tin này trong đánh giá mối đe dọa nội địa năm 2024.

Phát biểu tại một sự kiện AI ở Washington hồi tháng 5, Cố vấn An ninh Quốc gia Mỹ - Jake Sullivan nói vấn đề này không có giải pháp dễ dàng vì nó kết hợp năng lực của AI với “ý định từ các chủ thể chính phủ, phi chính phủ sử dụng thông tin sai lệch trên quy mô lớn để phá hoại nền dân chủ, thúc đẩy tuyên truyền, định hình nhận thức trên thế giới. Bên tấn công đang chiếm ưu thế rất lớn so với bên phòng thủ".

Vũ khí sinh học

Cộng đồng tình báo Mỹ, các tổ chức nghiên cứu và học giả ngày càng lo ngại về những rủi ro do tác nhân xấu nước ngoài được tiếp cận với các khả năng AI tiên tiến gây ra. Các nhà nghiên cứu tại tổ chức Gryphon Scientific và Rand Corporation lưu ý rằng các mô hình AI tiên tiến có thể cung cấp thông tin giúp tạo ra vũ khí sinh học.

Gryphon Scientific đã nghiên cứu cách các mô hình ngôn ngữ lớn có thể bị tác nhân thù địch sử dụng để gây hại trong lĩnh vực khoa học đời sống. Tổ chức này nhận thấy các mô hình ngôn ngữ lớn "có thể hỗ trợ một tác nhân xấu trong việc tạo ra vũ khí sinh học bằng cách cung cấp thông tin hữu ích, chính xác và chi tiết qua từng bước trong lộ trình này”.

Ví dụ, Gryphon Scientific phát hiện ra rằng mô hình ngôn ngữ lớn có thể cung cấp kiến ​​thức ở cấp độ tiến sĩ để giải quyết các vấn đề khi làm việc với một loại vi rút có khả năng gây đại dịch.

Nghiên cứu của Rand Corporation chỉ ra mô hình ngôn ngữ lớn có thể giúp lập kế hoạch và thực hiện cuộc tấn công sinh học. Ví dụ, họ nhận thấy mô hình ngôn ngữ lớn có thể đề xuất các phương pháp phát tán khí dung cho độc tố botulinum.

Vũ khí tấn công mạng

Trong đánh giá mối đe dọa an ninh nội địa năm 2024, Bộ An ninh Nội địa Mỹ cho rằng tội phạm mạng có thể sẽ sử dụng AI để "phát triển các công cụ mới nhằm giúp cuộc tấn công mạng quy mô lớn hơn, nhanh hơn, hiệu quả hơn và khó ngăn chặn hơn".

Theo Bộ An ninh Nội địa Mỹ, Trung Quốc và các đối thủ khác đang phát triển các công nghệ AI có thể làm suy yếu hệ thống phòng thủ mạng của Mỹ, gồm cả chương trình AI tạo sinh hỗ trợ các cuộc tấn công bằng phần mềm độc hại.

Trong một báo cáo hồi tháng 2, Microsoft cho biết đã theo dõi các nhóm hacker liên kết với chính phủ Trung Quốc, Triều Tiên, tình báo quân sự Nga và Lực lượng Vệ binh Cách mạng Iran khi chúng cố gắng hoàn thiện các chiến dịch hack của mình bằng cách sử dụng mô hình ngôn ngữ lớn.

Microsoft đã công bố phát hiện này khi đưa ra lệnh cấm toàn diện với các nhóm hacker do chính phủ hậu thuẫn sử dụng sản phẩm AI của mình.

Nỗ lực mới để giải quyết các mối đe dọa

Một nhóm nhà làm luật lưỡng đảng Mỹ đã công bố một dự luật vào cuối ngày 8.5 giúp chính quyền Biden dễ dàng áp đặt các biện pháp kiểm soát xuất khẩu với các mô hình ngôn ngữ lớn, nhằm bảo vệ công nghệ được đánh giá cao của Mỹ trước các tác nhân xấu nước ngoài.

Được tài trợ bởi đảng viên Cộng hòa tại Hạ viện là Michael McCaul và John Molenaar cùng đảng viên Dân chủ Raja Krishnamoorthi và Susan Wild, dự luật này sẽ trao cho Bộ Thương mại Mỹ quyền rõ ràng để cấm người Mỹ làm việc với người nước ngoài để phát triển các hệ thống AI gây rủi ro cho an ninh quốc gia Mỹ.

Tony Samp, cố vấn chính sách AI tại hãng luật DLA Piper (Mỹ), nói các nhà hoạch định chính sách ở Washington đang cố gắng "thúc đẩy sự đổi mới và tránh các quy định nặng tay gây cản trở sự đổi mới" khi họ tìm cách giải quyết nhiều rủi ro do công nghệ gây ra.

Thế nhưng, ông cảnh báo rằng “việc ngăn chặn sự phát triển AI thông qua quy định có thể hạn chế những đột phá tiềm năng trong phát triển thuốc, cơ sở hạ tầng, an ninh quốc gia và các lĩnh vực khác, đồng thời nhường lại vị thế cho những đối thủ cạnh tranh ở nước ngoài”.

Sơn Vân