Google DeepMind выделяет 10 млн долларов на фонд для решения рисков безопасности мультиагентного ИИ

По мере того как ИИ-агенты эволюционируют от простых чат-ботов к автономным сущностям, способным выполнять сложные задачи, возникает новый рубеж системных рисков. Google DeepMind и несколько глобальных партнеров запустили масштабную инициативу по изучению непредсказуемого поведения, которое возникает, когда миллионы таких автономных агентов начинают взаимодействовать в реальном мире.

Проблема мультиагентных систем: за пределами безопасности отдельных моделей

На протяжении большей части нынешней эры ИИ исследования были сосредоточены на безопасности отдельных моделей — обеспечении того, чтобы конкретная LLM не выдавала токсичный контент и не следовала вредоносным промптам. Однако Google DeepMind и его партнеры признают, что настоящая проблема заключается в «мультиагентных системах».

Когда огромное количество агентов развертывается в масштабах экономики, они создают сложную экосистему, в которой коллективное поведение может радикально отличаться от суммы составляющих его частей. Этот «коллективный разум агентов» потенциально может привести к возникновению эмерджентного интеллекта или, что более тревожно, эмерджентного хаоса. Эксперты предупреждают, что мы не можем предсказать эти результаты, изучая изолированные модели; вместо этого исследователи должны использовать реалистичные крупномасштабные симуляции, чтобы наблюдать за тем, как агенты взаимодействуют, конкурируют или непреднамеренно сотрудничают в цифровых «песочницах».

Коалиция с бюджетом 10 миллионов долларов для академических исследований

Чтобы восполнить этот пробел, Google DeepMind собрала мощную коалицию для предоставления 10 миллионов долларов финансирования исследователям. В партнерство входят Schmidt Sciences (филантропический фонд под руководством Эрика и Венди Шмидт), ARIA (британское государственное агентство по реализации прорывных проектов), фонд Cooperative AI и Google.org.

Стратегическая цель состоит в том, чтобы вывести исследования за пределы лабораторий технологических гигантов в академическую среду. В то время как лидеры индустрии, такие как Google и Anthropic, создают технологии, академические исследователи имеют свободу заглядывать дальше в будущее и изучать долгосрочные системные риски, которые могут не быть приоритетными для циклов выпуска коммерческих продуктов. Это финансирование направлено на создание фундаментальной области «безопасности мультиагентных систем», которой на данный момент не существует.

От инъекций промптов до цифровой анархии

Риски, связанные с мультиагентными системами, не являются чисто теоретическими; это усиленные версии существующих угроз кибербезопасности. К основным опасениям относятся:

  • Advanced Prompt Injections: An agent could be "hijacked" by a single malicious sentence buried in a document, turning a helpful assistant into self-guided malware.
  • Automated Scams and Cyberattacks: Agents capable of reasoning and improvisation can execute complex, multi-step social engineering or hacking attempts at scale.
  • Systemic Instability: Just as human institutions can cause unforeseen economic shifts, a massive deployment of autonomous agents could lead to digital "anarchy" or market instability.

Unlike traditional software, which follows fixed paths written by humans, AI agents reason and improvise. This unpredictability necessitates a shift toward "zero trust" frameworks—an approach championed by Anthropic—where every agent is treated as a potential vulnerability.

Key Takeaways

  • New Funding Initiative: Google DeepMind and partners have committed $10 million to fund academic research into the unpredictable behaviors of interacting AI agents.
  • Emergent Risks: The primary concern is that millions of autonomous agents could create systemic risks, such as automated cyberattacks and "hive mind" behaviors, that cannot be predicted by testing single models.
  • Shift in Security Paradigms: As agents move from fixed software to reasoning entities, the industry is shifting toward "zero trust" models to mitigate the risks of hijacking and prompt injection.