Google DeepMind підтримує фонд у розмірі 10 млн доларів для вирішення ризиків безпеки мультиагентного ШІ
Оскільки ШІ-агенти еволюціонують від простих чат-ботів до автономних сутностей, здатних виконувати складні завдання, з'являється новий фронт системних ризиків. Google DeepMind та кілька глобальних партнерів запустили масштабну ініціативу для вивчення непередбачуваної поведінки, яка виникає, коли мільйони таких автономних агентів починають взаємодіяти в реальному світі.
Проблема мультиагентності: поза межами безпеки окремих моделей
Протягом більшої частини сучасної ери ШІ дослідження були зосереджені на безпеці окремих моделей — забезпеченні того, щоб конкретна LLM не видавала токсичний контент і не виконувала шкідливі запити. Однак Google DeepMind та її партнери визнають, що справжній виклик полягає в «мультиагентних системах».
Коли велика кількість агентів розгортається в масштабах економіки, вони створюють складну екосистему, де колективна поведінка може радикально відрізнятися від суми її частин. Цей «колективний розум агентів» (agent hive mind) потенційно може призвести до емерджентного інтелекту або, що ще тривожніше, до емерджентного хаосу. Експерти попереджають, що ми не можемо передбачити ці результати, вивчаючи ізольовані моделі; натомість дослідники повинні використовувати реалістичні великомасштабні симуляції, щоб спостерігати за тим, як агенти взаємодіють, конкурують або ненавмисно співпрацюють у цифрових «пісочницях».
Коаліція на 10 мільйонів доларів для академічних досліджень
Щоб заповнити цю прогалину, Google DeepMind зібрала потужну коаліцію для надання 10 мільйонів доларів фінансування дослідникам. Партнерство включає Schmidt Sciences (філантропічний фонд під керівництвом Еріка та Венді Шмідтів), ARIA (британське урядове агентство для реалізації амбітних проєктів), Cooperative AI foundation та Google.org.
Стратегічна мета полягає в тому, щоб винести дослідження за межі лабораторій великих технологічних компаній в академічне середовище. У той час як лідери галузі, такі як Google та Anthropic, розробляють технології, академічні дослідники мають свободу зазирнути далі в майбутнє та дослідити довгострокові системні ризики, які можуть не бути пріоритетними для циклів комерційних продуктів. Це фінансування спрямоване на створення фундаментальної галузі «мультиагентної безпеки», якої наразі не існує.
Від ін'єкцій промптів до цифрової анархії
Ризики, пов'язані з мультиагентними системами, не є суто теоретичними; це посилені версії існуючих загроз кібербезпеці. Основні занепокоєння включають:
- Розширені ін'єкції промптів: Агента можна «перехопити» за допомогою одного зловмисного речення, прихованого в документі, що перетворить корисного помічника на самокероване шкідливе програмне забезпечення.
- Автоматизоване шахрайство та кібератаки: Агенти, здатні до міркування та імпровізації, можуть масштабно здійснювати складні багатоетапні спроби соціальної інженерії або хакерські атаки.
- Системна нестабільність: Подібно до того, як людські інституції можуть спричинити непередбачувані економічні зсуви, масове розгортання автономних агентів може призвести до цифрової «анархії» або нестабільності ринку.
На відміну від традиційного програмного забезпечення, яке слідує жорстко визначеним шляхам, прописаним людьми, ШІ-агенти здатні до міркування та імпровізації. Така непередбачуваність зумовлює необхідність переходу до фреймворків «нульової довіри» (zero trust) — підходу, який просуває Anthropic, — де кожен агент розглядається як потенційна вразливість.
Основні висновки
- Нова ініціатива фінансування: Google DeepMind та партнери виділили 10 мільйонів доларів на фінансування академічних досліджень непередбачуваної поведінки взаємодіючих ШІ-агентів.
- Емерджентні ризики: Головне побоювання полягає в тому, що мільйони автономних агентів можуть створити системні ризики, такі як автоматизовані кібератаки та поведінка за принципом «колективного розуму» (hive mind), які неможливо передбачити шляхом тестування окремих моделей.
- Зміна парадигм безпеки: Оскільки агенти переходять від статусу жорсткого ПЗ до ролі суб'єктів, що здатні міркувати, індустрія зміщує фокус у бік моделей «нульової довіри», щоб мінімізувати ризики перехоплення та ін'єкцій промптів.