Google DeepMind, 멀티 에이전트 AI 안전성 리스크 해결을 위해 1,000만 달러 규모의 펀드 지원

AI 에이전트가 단순한 챗봇에서 복잡한 작업을 수행할 수 있는 자율적 개체로 진화함에 따라, 새로운 차원의 시스템적 리스크가 나타나고 있습니다. Google DeepMind와 여러 글로벌 파트너들은 수백만 개의 이러한 자율 에이전트들이 현실 세계에서 상호작용하기 시작할 때 발생하는 예측 불가능한 행동을 연구하기 위해 대규모 이니셔티브를 시작했습니다.

멀티 에이전트 문제: 개별 모델의 안전성을 넘어

현재 AI 시대의 상당 부분 동안 연구는 단일 모델의 안전성, 즉 특정 LLM이 유해한 콘텐츠를 출력하거나 악의적인 프롬프트를 따르지 않도록 보장하는 데 집중해 왔습니다. 하지만 Google DeepMind와 그 파트너들은 진정한 과제가 "멀티 에이전트 시스템(multi-agent systems)"에 있다는 점을 인식하고 있습니다.

수많은 에이전트가 경제 전반에 배치되면, 개별 요소의 합과는 근본적으로 다를 수 있는 집단적 행동을 보이는 복잡한 생태계가 조성됩니다. 이러한 "에이전트 집단 지성(agent hive mind)"은 잠재적으로 창발적 지능(emergent intelligence)을 이끌어낼 수도 있지만, 더 우려스럽게는 창발적 혼돈(emergent chaos)을 초래할 수도 있습니다. 전문가들은 고립된 모델을 연구하는 것만으로는 이러한 결과를 예측할 수 없다고 경고합니다. 대신 연구자들은 디지털 샌드박스 내에서 에이전트들이 어떻게 상호작용하고, 경쟁하며, 혹은 의도치 않게 협력하는지 관찰하기 위해 현실적이고 대규모인 시뮬레이션을 사용해야 합니다.

학술 연구를 위한 1,000만 달러 규모의 연합

이러한 격차를 해소하기 위해 Google DeepMind는 연구자들에게 1,000만 달러의 자금을 지원하기 위한 강력한 연합을 구성했습니다. 이 파트너십에는 Schmidt Sciences(Eric과 Wendy Schmidt가 이끄는 자선 재단), ARIA(영국 정부의 문샷 에이전시), Cooperative AI foundation, 그리고 Google.org가 참여합니다.

전략적 목표는 연구를 빅테크 연구소의 울타리 밖으로 옮겨 학계로 확장하는 것입니다. Google이나 Anthropic과 같은 업계 리더들이 기술을 구축하고 있는 동안, 학술 연구자들은 더 먼 미래를 내다보고 상업적 제품 주기의 즉각적인 우선순위가 아닐 수 있는 장기적인 시스템적 리스크를 조사할 수 있는 자유를 가집니다. 이 자금 지원은 현재 존재하지 않는 "멀티 에이전트 안전성(multi-agent safety)"이라는 기초 분야를 구축하는 것을 목표로 합니다.

프롬프트 인젝션에서 디지털 무정부 상태까지

멀티 에이전트 시스템과 관련된 리스크는 단순히 이론적인 것에 그치지 않습니다. 이는 기존 사이버 보안 위협이 더욱 강력해진 형태입니다. 주요 우려 사항은 다음과 같습니다:

  • 고급 프롬프트 인젝션: 에이전트는 문서 속에 숨겨진 단 하나의 악성 문장에 의해 '하이재킹(hijacked)'될 수 있으며, 이로 인해 유용한 어시스턴트가 자율형 악성코드로 변질될 수 있습니다.
  • 자동화된 사기 및 사이버 공격: 추론과 즉흥적 대응이 가능한 에이전트는 복잡하고 다단계적인 사회 공학적 공격이나 해킹 시도를 대규모로 수행할 수 있습니다.
  • 시스템적 불안정성: 인간 기관이 예기치 못한 경제적 변화를 일으킬 수 있는 것처럼, 자율 에이전트의 대규모 배포는 디지털 '무정부 상태'나 시장 불안정성을 초래할 수 있습니다.

인간이 작성한 고정된 경로를 따르는 기존 소프트웨어와 달리, AI 에이전트는 추론하고 즉흥적으로 대응합니다. 이러한 예측 불가능성으로 인해 모든 에이전트를 잠재적인 취약점으로 간주하는 '제로 트러스트(zero trust)' 프레임워크로의 전환이 필요하며, 이는 Anthropic이 옹호하는 접근 방식이기도 합니다.

핵심 요약

  • 새로운 펀딩 이니셔티브: Google DeepMind와 파트너들은 상호작용하는 AI 에이전트의 예측 불가능한 행동에 관한 학술 연구를 지원하기 위해 1,000만 달러를 투입하기로 했습니다.
  • 창발적 위험: 주요 우려 사항은 수백만 개의 자율 에이전트가 자동화된 사이버 공격이나 '하이브 마인드(hive mind)' 행동과 같이 단일 모델 테스트로는 예측할 수 없는 시스템적 위험을 생성할 수 있다는 점입니다.
  • 보안 패러다임의 전환: 에이전트가 고정된 소프트웨어에서 추론하는 개체로 진화함에 따라, 업계는 하이재킹 및 프롬프트 인젝션 위험을 완화하기 위해 '제로 트러스트' 모델로 전환하고 있습니다.