Google DeepMind hỗ trợ quỹ 10 triệu USD nhằm giải quyết các rủi ro an toàn AI đa tác nhân

Khi các tác nhân AI tiến hóa từ những chatbot đơn giản thành các thực thể tự trị có khả năng thực hiện các tác vụ phức tạp, một ranh giới mới về rủi ro hệ thống đang dần xuất hiện. Google DeepMind cùng nhiều đối tác toàn cầu đã khởi động một sáng kiến quy mô lớn nhằm nghiên cứu các hành vi không thể dự đoán nảy sinh khi hàng triệu tác nhân tự trị này bắt đầu tương tác trong thế giới thực.

Vấn đề Đa tác nhân: Vượt xa khỏi sự an toàn của từng mô hình riêng lẻ

Trong phần lớn kỷ nguyên AI hiện nay, các nghiên cứu chủ yếu tập trung vào sự an toàn của các mô hình đơn lẻ—đảm bảo một LLM cụ thể không đưa ra nội dung độc hại hoặc tuân theo các câu lệnh (prompts) ác ý. Tuy nhiên, Google DeepMind và các đối tác của họ nhận ra rằng thách thức thực sự nằm ở "các hệ thống đa tác nhân" (multi-agent systems).

Khi một số lượng lớn các tác nhân được triển khai trong nền kinh tế, chúng tạo ra một hệ sinh thái phức tạp, nơi hành vi tập thể có thể khác biệt hoàn toàn so với tổng hợp các thành phần riêng lẻ. "Tâm trí bầy đàn của tác nhân" (agent hive mind) này có khả năng dẫn đến trí tuệ mới nổi (emergent intelligence) hoặc, đáng báo động hơn, là sự hỗn loạn mới nổi (emergent chaos). Các chuyên gia cảnh báo rằng chúng ta không thể dự đoán những kết quả này bằng cách nghiên cứu các mô hình biệt lập; thay vào đó, các nhà nghiên cứu phải sử dụng các mô phỏng quy mô lớn và thực tế để quan sát cách các tác nhân tương tác, cạnh tranh hoặc vô tình hợp tác trong các môi trường thử nghiệm kỹ thuật số (digital sandboxes).

Liên minh 10 triệu USD dành cho Nghiên cứu Học thuật

Để giải quyết lỗ hổng này, Google DeepMind đã tập hợp một liên minh mạnh mẽ nhằm cung cấp khoản tài trợ 10 triệu USD cho các nhà nghiên cứu. Quan hệ đối tác này bao gồm Schmidt Sciences (một quỹ từ thiện do Eric và Wendy Schmidt dẫn dắt), ARIA (cơ quan thực hiện các dự án đột phá của chính phủ Anh), quỹ Cooperative AI và Google.org.

Mục tiêu chiến lược là đưa nghiên cứu ra khỏi phạm vi của các phòng thí nghiệm công nghệ lớn và đưa vào môi trường học thuật. Trong khi các nhà lãnh đạo ngành như Google và Anthropic đang xây dựng công nghệ, các nhà nghiên cứu học thuật có sự tự do để nhìn xa hơn vào tương lai và điều tra các rủi ro hệ thống dài hạn vốn có thể không phải là ưu tiên tức thời trong các chu kỳ sản phẩm thương mại. Khoản tài trợ này nhằm mục đích xây dựng lĩnh vực nền tảng về "an toàn đa tác nhân" (multi-agent safety), một lĩnh vực hiện chưa tồn tại.

Từ Tấn công Prompt Injection đến Sự hỗn loạn kỹ thuật số

Các rủi ro liên quan đến hệ thống đa tác nhân không chỉ dừng lại ở mức lý thuyết; chúng là những phiên bản được tăng cường sức mạnh của các mối đe dọa an ninh mạng hiện có. Các mối quan tâm chính bao gồm:

  • Tấn công Prompt Injection nâng cao: Một tác nhân có thể bị "chiếm quyền điều khiển" bởi chỉ một câu lệnh độc hại ẩn sâu trong một tài liệu, biến một trợ lý hữu ích thành phần mềm độc hại tự vận hành.
  • Lừa đảo và tấn công mạng tự động: Các tác nhân có khả năng lập luận và ứng biến có thể thực hiện các nỗ lực tấn công mạng hoặc kỹ thuật xã hội (social engineering) phức tạp, gồm nhiều bước ở quy mô lớn.
  • Sự mất ổn định mang tính hệ thống: Giống như các tổ chức của con người có thể gây ra những biến động kinh tế không lường trước được, việc triển khai ồ ạt các tác nhân tự hành có thể dẫn đến tình trạng "vô chính phủ" kỹ thuật số hoặc gây mất ổn định thị trường.

Khác với phần mềm truyền thống vốn tuân theo các lộ trình cố định do con người viết ra, các tác nhân AI có khả năng lập luận và ứng biến. Sự khó đoán này đòi hỏi một sự chuyển dịch sang các khung làm việc "zero trust" — một phương pháp được Anthropic ủng hộ — nơi mọi tác nhân đều được xem là một lỗ hổng tiềm tàng.

Các điểm chính cần lưu ý

  • Sáng kiến tài trợ mới: Google DeepMind và các đối tác đã cam kết chi 10 triệu USD để tài trợ cho các nghiên cứu học thuật về các hành vi khó đoán của các tác nhân AI khi tương tác với nhau.
  • Rủi ro mới phát sinh: Mối quan tâm hàng đầu là hàng triệu tác nhân tự hành có thể tạo ra các rủi ro mang tính hệ thống, chẳng hạn như các cuộc tấn công mạng tự động và hành vi "tâm trí bầy đàn" (hive mind), những điều mà việc kiểm thử các mô hình đơn lẻ không thể dự đoán trước được.
  • Sự chuyển dịch trong mô hình bảo mật: Khi các tác nhân chuyển từ phần mềm cố định sang các thực thể có khả năng lập luận, ngành công nghiệp đang chuyển hướng sang các mô hình "zero trust" để giảm thiểu rủi ro bị chiếm quyền điều khiển và tấn công prompt injection.