Sakana AI запускает Fugu для оркестрации мульти-LLM интеллекта

Базирующаяся в Токио компания Sakana AI представила Fugu — сложный оркестратор мульти-LLM, предназначенный для координации пула специализированных моделей для решения сложных задач. Выступая в качестве единого интеллектуального слоя, Fugu стремится конкурировать по производительности с такими лидерами отрасли, как Anthropic, предлагая при этом стратегическую защиту от привязки к поставщику (vendor lock-in).

Единый интерфейс для взаимозаменяемого пула агентов

Fugu — это не просто очередная самостоятельная большая языковая модель; это языковая модель, специально обученная для управления «пулом агентов». Для конечного пользователя система функционирует как единая сущность через OpenAI-совместимый API. Однако внутри Fugu выполняет сложный цикл выбора, делегирования, исполнения, проверки и синтеза. В зависимости от сложности запроса Fugu может решить задачу самостоятельно или динамически собрать «команду» специализированных моделей (включая свои собственные копии) для выполнения работы.

Sakana AI предлагает две различные версии для удовлетворения различных профессиональных потребностей:

  • Fugu Base: Оптимизирована для низкой задержки и повседневных задач, таких как взаимодействие с чат-ботами и стандартный аудит кода.
  • Fugu Ultra: Разработана для обеспечения максимального качества рассуждений и ориентирована на критически важные рабочие процессы, такие как воспроизведение научных работ, анализ кибербезопасности и патентный поиск.

Превосходство над передовыми моделями в бенчмарках

Показатели производительности Fugu Ultra впечатляют, ставя её в прямую конкуренцию с долгожданными моделями Fable 5 и Mythos Preview от Anthropic. Примечательно, что Fugu Ultra достигает этих результатов, используя пул, который не включает модели Anthropic, что предполагает еще более высокие возможности в случае интеграции этих агентов.

В ходе строгих испытаний Fugu Ultra продемонстрировала превосходные возможности в нескольких ключевых технических бенчмарках:

  • SWE Bench Pro: Fugu Ultra набрала 73,7, значительно опередив GPT 5.5 (58,6) и Gemini 3.1 Pro (54,2).
  • LiveCodeBench: Fugu Ultra достигла 93,2, превзойдя Opus 4.8 (87,8) и GPT 5.5 (85,3).
  • Humanity's Last Exam: Модель достигла результата 50,0, обойдя Opus 4.8 (49,8).
  • GPQA-D: Fugu Ultra достигла высокого стандарта в 95,5.

Первые бета-тестеры сообщили о колоссальном росте эффективности в специализированных областях. Один разработчик отметил, что при аудите кода Fugu Ultra выявила более 20 багов, в то время как GPT-5.5 обнаружила лишь около трех.

Снижение рисков привязки к поставщику ИИ

Помимо чистой производительности, Sakana AI позиционирует Fugu как критически важный инструмент для обеспечения цифрового суверенитета. В эпоху, когда экспортный контроль и изменения в законодательстве могут внезапно ограничить доступ к определенным моделям (как в случае с недавними ограничениями Anthropic), зависимость от одного провайдера представляет собой существенную уязвимость для финансового сектора, государственного управления и критически важной инфраструктуры.

Поскольку Fugu использует взаимозаменяемый пул агентов, организации могут перенаправить свои рабочие процессы на других провайдеров, если один из API станет недоступен. Хотя это и не является полным решением проблемы «ИИ-суверенитета» — так как широкомасштабные отраслевые ограничения все равно могут ограничить пул — это обеспечивает жизненно важный уровень устойчивости для предприятий, стремящихся диверсифицировать свои зависимости от ИИ.

Основные выводы

  • Динамическая оркестрация: Fugu функционирует как единый API, который внутри управляет командой специализированных моделей для решения многоэтапных сложных задач.
  • Доминирование в бенчмарках: Fugu Ultra напрямую конкурирует с Fable 5 и Mythos от Anthropic, демонстрируя значительное превосходство в задачах программирования (SWE Bench Pro) и тестах на логическое мышление.
  • Стратегическая устойчивость: Взаимозаменяемый пул моделей позволяет пользователям снижать риски привязки к поставщику и регуляторных сбоев за счет диверсификации провайдеров ИИ.