Google DeepMind、マルチエージェントAIの安全性リスクを解決するため1,000万ドルの基金を支援
AIエージェントが単純なチャットボットから、複雑なタスクを実行可能な自律的な実体へと進化するにつれ、システム的なリスクの新たな領域が浮上しています。Google DeepMindと複数のグローバルパートナーは、数百万もの自律型エージェントが現実世界で相互作用し始めたときに生じる予測不可能な挙動を研究するため、大規模なイニシアチブを開始しました。
マルチエージェント問題:個別のモデルの安全性を超えて
現在のAI時代の大部分において、研究は単一モデルの安全性、つまり特定のLLMが有害なコンテンツを出力したり、悪意のあるプロンプトに従ったりしないようにすることに焦点を当ててきました。しかし、Google DeepMindとそのパートナーは、真の課題は「マルチエージェント・システム」にあると考えています。
膨大な数のエージェントが経済全体に展開されると、それらは複雑なエコシステムを形成し、その集合的な挙動は個々の要素の総和とは劇的に異なるものになる可能性があります。この「エージェントの集合知(agent hive mind)」は、創発的な知能をもたらす可能性もあれば、より懸念すべきことに、創発的な混乱を引き起こす可能性もあります。専門家は、孤立したモデルを研究するだけではこれらの結果を予測することはできないと警告しています。その代わりに、研究者は現実的で大規模なシミュレーションを用いて、デジタル・サンドボックス内でエージェントがどのように相互作用し、競合し、あるいは意図せず協力し合うのかを観察する必要があります。
学術研究のための1,000万ドルの連合
このギャップを埋めるため、Google DeepMindは強力な連合を組織し、研究者に1,000万ドルの資金を提供します。このパートナーシップには、Schmidt Sciences(エリック・シュミットとウェンディ・シュミットが率いる慈善財団)、ARIA(英国政府のムーンショット機関)、Cooperative AI foundation、およびGoogle.orgが含まれます。
戦略的な目標は、研究をビッグテックの研究所の枠組みから学術界へと広げることです。GoogleやAnthropicのような業界のリーダーが技術を構築している一方で、学術研究者はより遠い未来を見据え、商業的な製品サイクルにおいては当面の優先事項とはならないような、長期的なシステムリスクを調査する自由を持っています。この資金提供は、現在はまだ存在しない「マルチエージェントの安全性(multi-agent safety)」という基礎分野を構築することを目指しています。
プロンプト・インジェクションからデジタル・アナーキーまで
マルチエージェント・システムに関連するリスクは、単なる理論上のものではありません。それらは既存のサイバーセキュリティ脅威をさらに増幅させたものです。主な懸念事項には以下が含まれます:
- 高度なプロンプト・インジェクション: ドキュメント内に埋め込まれたたった一文の悪意ある文章によって、エージェントが「乗っ取られ」、役立つアシスタントが自律的に動作するマルウェアへと変貌してしまう可能性があります。
- 自動化された詐欺とサイバー攻撃: 推論や即興的な対応が可能なエージェントは、複雑で多段階的なソーシャルエンジニアリングやハッキングの試みを、大規模に実行できてしまいます。
- システム的な不安定性: 人間が作る制度が予期せぬ経済変動を引き起こすのと同様に、自律型エージェントが大規模に導入されることで、デジタルの「無秩序」や市場の不安定化を招く恐れがあります。
人間が記述した固定的なパスに従う従来のソフトウェアとは異なり、AIエージェントは推論し、即興的に対応します。この予測不可能性により、Anthropicが提唱する「ゼロトラスト」フレームワークへの移行が必要となっています。これは、すべてのエージェントを潜在的な脆弱性として扱うアプローチです。
主な要点
- 新たな資金提供の取り組み: Google DeepMindとそのパートナーは、相互作用するAIエージェントの予測不可能な挙動に関する学術研究を支援するため、1,000万ドルを拠出することを決定しました。
- 創発的なリスク: 最大の懸念は、数百万もの自律型エージェントが、単一のモデルをテストするだけでは予測できない、自動化されたサイバー攻撃や「ハイブマインド(集合知)」的な挙動といったシステム的なリスクを引き起こす可能性があることです。
- セキュリティパラダイムの転換: エージェントが固定的なソフトウェアから推論を行う実体へと変化するにつれ、乗っ取りやプロンプト・インジェクションのリスクを軽減するため、業界は「ゼロトラスト」モデルへと移行しています。