Sakana AI запускає Fugu для оркестрації інтелекту на базі декількох LLM
Токійська компанія Sakana AI представила Fugu — складний оркестратор декількох LLM, розроблений для координації пулу спеціалізованих моделей для вирішення складних завдань. Виступаючи як єдиний інтелектуальний шар, Fugu прагне конкурувати з продуктивністю лідерів галузі, таких як Anthropic, водночас пропонуючи стратегічний захист від прив'язки до постачальника (vendor lock-in).
Єдиний інтерфейс для пулу агентів, що піддається заміні
Fugu — це не просто чергова окрема велика мовна модель; це мовна модель, спеціально навчена керувати «пулом агентів». Для кінцевого користувача система функціонує як єдиний об'єкт через API, сумісний з OpenAI. Однак внутрішньо Fugu виконує складний цикл вибору, делегування, виконання, перевірки та синтезу. Залежно від складності запиту, Fugu може вирішити проблему самостійно або динамічно залучити «команду» спеціалізованих моделей — включаючи власні копії — для виконання навантаження.
Sakana AI пропонує дві різні версії для задоволення різних професійних потреб:
- Fugu Base: Оптимізована для низької затримки та повсякденних завдань, таких як взаємодія з чат-ботами та стандартне рецензування коду.
- Fugu Ultra: Створена для максимальної якості міркувань, орієнтована на критично важливі робочі процеси, такі як відтворення наукових праць, аналіз кібербезпеки та пошук патентів.
Перевершення передових моделей у бенчмарках
Показники продуктивності Fugu Ultra вражають, виводячи її в пряму конкуренцію з очікуваними Fable 5 та Mythos Preview від Anthropic. Примітно, що Fugu Ultra досягає таких результатів, використовуючи пул, який не включає моделі Anthropic, що свідчить про ще вищий потенціал у разі інтеграції цих агентів.
У суворих тестах Fugu Ultra продемонструвала вищі можливості в кількох ключових технічних бенчмарках:
- SWE Bench Pro: Fugu Ultra набрала 73.7, значно перевершивши GPT 5.5 (58.6) та Gemini 3.1 Pro (54.2).
- LiveCodeBench: Fugu Ultra досягла 93.2, випередивши Opus 4.8 (87.8) та GPT 5.5 (85.3).
- Humanity's Last Exam: Модель досягла результату 50.0, випередивши Opus 4.8 (49.8).
- GPQA-D: Fugu Ultra досягла високого стандарту 95.5.
Перші бета-тестувальники повідомили про величезне зростання ефективності у спеціалізованих галузях. Один розробник зазначив, що під час рецензування коду Fugu Ultra виявила понад 20 багів, тоді як GPT-5.5 позначила лише приблизно три.
Мінімізація ризиків прив'язки до постачальника ШІ
Окрім чистої продуктивності, Sakana AI позиціонує Fugu як критично важливий інструмент для цифрового суверенітету. В епоху, коли експортний контроль та регуляторні зміни можуть раптово обмежити доступ до певних моделей (як нещодавні обмеження Anthropic), покладання на одного постачальника становить суттєву вразливість для фінансів, управління та критичної інфраструктури.
Оскільки Fugu використовує пул агентів, що піддається заміні, організації можуть перенаправляти свої робочі процеси до інших постачальників, якщо один API стане недоступним. Хоча це не є повним рішенням для «ШІ-суверенітету» — оскільки широкомасштабні галузеві обмеження все одно можуть обмежити пул — це забезпечує життєво важливий рівень стійкості для підприємств, які прагнуть диверсифікувати свою залежність від ШІ.
Основні висновки
- Динамічна оркестрація: Fugu функціонує як єдиний API, який внутрішньо керує командою спеціалізованих моделей для вирішення багатоетапних складних завдань.
- Домінування в бенчмарках: Fugu Ultra безпосередньо конкурує з Fable 5 та Mythos від Anthropic, демонструючи значні відриви в бенчмарках з програмування (SWE Bench Pro) та міркування.
- Стратегічна стійкість: Пул моделей, що піддається заміні, дозволяє користувачам мінімізувати ризики прив'язки до постачальника та регуляторних збоїв шляхом диверсифікації постачальників ШІ.