Sakana AI, 멀티 LLM 지능 오케스트레이션을 위한 Fugu 출시

도쿄 기반의 Sakana AI가 복잡한 작업을 해결하기 위해 전문화된 모델 풀(pool)을 조정하도록 설계된 정교한 멀티 LLM 오케스트레이터인 Fugu를 공개했습니다. Fugu는 단일 지능 계층으로 작동함으로써 Anthropic과 같은 업계 선두 주자들의 성능에 필적하는 동시에, 특정 벤더에 종속되는 벤더 락인(vendor lock-in)에 대한 전략적 헤지 수단을 제공하는 것을 목표로 합니다.

교체 가능한 에이전트 풀을 위한 통합 인터페이스

Fugu는 단순한 독립형 대규모 언어 모델이 아닙니다. 이는 "에이전트 풀"을 관리하도록 특별히 훈련된 언어 모델입니다. 최종 사용자에게 이 시스템은 OpenAI 호환 API를 통해 단일 개체로 기능합니다. 하지만 내부적으로 Fugu는 선택, 위임, 실행, 검증 및 합성을 포함하는 복잡한 사이클을 수행합니다. 프롬프트의 복잡성에 따라 Fugu는 문제를 단독으로 해결하거나, 작업 부하를 처리하기 위해 자기 자신의 복사본을 포함한 전문화된 모델 "팀"을 동적으로 모집할 수 있습니다.

Sakana AI는 다양한 전문적 요구를 충족하기 위해 두 가지 별도의 버전을 제공합니다:

  • Fugu Base: 낮은 지연 시간과 챗봇 상호작용 및 표준 코드 리뷰와 같은 일상적인 작업에 최적화되었습니다.
  • Fugu Ultra: 과학 논문 재현, 사이버 보안 분석, 특허 검색과 같은 고도의 정밀함이 요구되는 워크플로우를 대상으로 최대의 추론 품질을 구현하도록 설계되었습니다.

벤치마크에서 프런티어 모델 능가

Fugu Ultra의 성능 지표는 매우 놀라우며, Anthropic의 기대를 모으고 있는 Fable 5 및 Mythos Preview와 직접적인 경쟁 구도를 형성합니다. 특히 Fugu Ultra는 Anthropic의 모델을 포함하지 않은 풀을 사용하여 이러한 점수를 달성했다는 점에서, 만약 해당 에이전트들이 통합된다면 훨씬 더 높은 성능 한계치를 보여줄 수 있음을 시사합니다.

엄격한 테스트 결과, Fugu Ultra는 여러 주요 기술 벤치마크에서 탁월한 능력을 입증했습니다:

  • SWE Bench Pro: Fugu Ultra는 73.7점을 기록하여 GPT 5.5(58.6)와 Gemini 3.1 Pro(54.2)를 크게 앞질렀습니다.
  • LiveCodeBench: Fugu Ultra는 93.2점에 도달하여 Opus 4.8(87.8)과 GPT 5.5(85.3)를 넘어섰습니다.
  • Humanity's Last Exam: 이 모델은 50.0점을 달성하며 Opus 4.8(49.8)을 근소하게 앞섰습니다.
  • GPQA-D: Fugu Ultra는 95.5라는 높은 기준에 부합하는 성적을 거두었습니다.

초기 베타 테스터들은 전문 분야에서 엄청난 효율성 향상을 보고했습니다. 한 개발자는 코드 리뷰 과정에서 GPT-5.5가 약 3개의 버그만을 찾아낸 반면, Fugu Ultra는 20개 이상의 버그를 식별했다고 언급했습니다.

AI 벤더 락인 리스크 완화

순수한 성능을 넘어, Sakana AI는 Fugu를 디지털 주권(digital sovereignty)을 위한 핵심 도구로 포지셔닝하고 있습니다. 수출 통제 및 규제 변화로 인해 특정 모델에 대한 접근이 갑자기 제한될 수 있는 시대(예: Anthropic의 최근 제한 조치)에, 단일 제공업체에 의존하는 것은 금융, 거버넌스 및 핵심 인프라에 있어 실질적인 취약점이 됩니다.

Fugu는 교체 가능한 에이전트 풀을 활용하기 때문에, 특정 API가 중단되더라도 조직은 워크플로우를 다른 제공업체로 재라우팅할 수 있습니다. 업계 전반에 걸친 광범위한 제한이 발생할 경우 풀 자체가 제한될 수 있으므로 "AI 주권"을 위한 완전한 해결책은 아닐지라도, AI 의존도를 다각화하려는 기업들에게 필수적인 회복 탄력성(resilience) 계층을 제공합니다.

핵심 요약

  • 동적 오케스트레이션: Fugu는 내부적으로 전문화된 모델 팀을 관리하여 다단계의 복잡한 문제를 해결하는 단일 API로 작동합니다.
  • 벤치마크 우위: Fugu Ultra는 Anthropic의 Fable 5 및 Mythos와 직접 경쟁하며, 코딩(SWE Bench Pro) 및 추론 벤치마크에서 상당한 격차를 보여줍니다.
  • 전략적 회복 탄력성: 교체 가능한 모델 풀을 통해 사용자는 AI 제공업체를 다각화함으로써 벤더 락인 및 규제 중단 리스크를 완화할 수 있습니다.