Sakana AI lanza Fugu para orquestar inteligencia multi-LLM

Sakana AI, con sede en Tokio, ha presentado Fugu, un sofisticado orquestador multi-LLM diseñado para coordinar un conjunto de modelos especializados con el fin de resolver tareas complejas. Al actuar como una única capa inteligente, Fugu pretende rivalizar con el rendimiento de líderes de la industria como Anthropic, al tiempo que ofrece una cobertura estratégica contra la dependencia de un único proveedor (vendor lock-in).

Una interfaz unificada para un conjunto de agentes intercambiables

Fugu no es simplemente otro modelo de lenguaje de gran tamaño independiente; es un modelo de lenguaje entrenado específicamente para gestionar un "conjunto de agentes" (agent pool). Para el usuario final, el sistema funciona como una única entidad a través de una API compatible con OpenAI. Internamente, sin embargo, Fugu realiza un ciclo complejo de selección, delegación, ejecución, verificación y síntesis. Dependiendo de la complejidad de una instrucción (prompt), Fugu puede resolver el problema por sí solo o reclutar dinámicamente un "equipo" de modelos especializados —incluidas copias de sí mismo— para abordar la carga de trabajo.

Sakana AI ofrece dos versiones distintas para satisfacer diferentes necesidades profesionales:

  • Fugu Base: Optimizado para baja latencia y tareas cotidianas, como interacciones con chatbots y revisiones de código estándar.
  • Fugu Ultra: Diseñado para obtener la máxima calidad de razonamiento, orientado a flujos de trabajo de alto riesgo como la reproducción de artículos científicos, el análisis de ciberseguridad y la búsqueda de patentes.

Superando a los modelos de vanguardia en los benchmarks

Las métricas de rendimiento de Fugu Ultra son sorprendentes, situándolo en competencia directa con los muy esperados Fable 5 y Mythos Preview de Anthropic. Cabe destacar que Fugu Ultra alcanza estas puntuaciones utilizando un conjunto que no incluye los modelos de Anthropic, lo que sugiere un potencial aún mayor si se integraran dichos agentes.

En pruebas rigurosas, Fugu Ultra demostró capacidades superiores en varios benchmarks técnicos clave:

  • SWE Bench Pro: Fugu Ultra obtuvo una puntuación de 73.7, superando significativamente a GPT 5.5 (58.6) y Gemini 3.1 Pro (54.2).
  • LiveCodeBench: Fugu Ultra alcanzó los 93.2, superando a Opus 4.8 (87.8) y GPT 5.5 (85.3).
  • Humanity's Last Exam: El modelo logró un 50.0, superando ligeramente a Opus 4.8 (49.8).
  • GPQA-D: Fugu Ultra igualó el alto estándar de 95.5.

Los primeros probadores de la versión beta han reportado ganancias masivas de eficiencia en campos especializados. Un desarrollador señaló que, durante las revisiones de código, Fugu Ultra identificó más de 20 errores, mientras que GPT-5.5 solo señaló aproximadamente tres.

Mitigación de los riesgos de la dependencia de proveedores de IA

Más allá del puro rendimiento, Sakana AI posiciona a Fugu como una herramienta crítica para la soberanía digital. En una era en la que los controles de exportación y los cambios regulatorios pueden restringir repentinamente el acceso a modelos específicos (como las recientes restricciones de Anthropic), depender de un único proveedor representa una vulnerabilidad material para las finanzas, la gobernanza y la infraestructura crítica.

Debido a que Fugu utiliza un conjunto de agentes intercambiables, las organizaciones pueden redirigir sus flujos de trabajo a diferentes proveedores si una API deja de funcionar. Aunque no es una solución total para la "soberanía de la IA" —ya que una restricción generalizada en toda la industria aún podría limitar el conjunto—, proporciona una capa vital de resiliencia para las empresas que buscan diversificar sus dependencias de IA.

Conclusiones clave

  • Orquestación dinámica: Fugu funciona como una única API que gestiona internamente un equipo de modelos especializados para resolver problemas complejos de múltiples pasos.
  • Dominio en benchmarks: Fugu Ultra compite directamente con Fable 5 y Mythos de Anthropic, mostrando ventajas significativas en los benchmarks de codificación (SWE Bench Pro) y razonamiento.
  • Resiliencia estratégica: El conjunto de modelos intercambiables permite a los usuarios mitigar los riesgos de la dependencia de proveedores y las interrupciones regulatorias mediante la diversificación de los proveedores de IA.