La startup japonesa Sakana AI presentó Fugu, un sistema que coordina dinámicamente varios modelos de lenguaje desde un pool intercambiable y se comporta como uno solo a través de una API única compatible con OpenAI. La empresa apunta a competir con sistemas líderes como Fable 5 y Mythos Preview de Anthropic mientras reduce la dependencia de cualquier proveedor único, informó The Decoder.
Fugu es en sí mismo un modelo de lenguaje entrenado para invocar a otros LLM desde un pool de agentes, incluidas copias de sí mismo. Según el pedido, resuelve la tarea solo o convoca a un equipo de modelos especializados. La selección, delegación, verificación y síntesis corren internamente. Sakana ya había mostrado resultados sólidos con setups de orquestación para coding: su ALE-Agent terminó 21° entre 1.000 expertos humanos en una competencia de programación.
¿Qué propone Fugu para evitar la dependencia de un solo proveedor?
Sakana lanza dos variantes. Fugu base apunta a baja latencia y rendimiento sólido en programación, revisión de código y chatbots. Los equipos con necesidades de privacidad o compliance pueden excluir agentes específicos del pool. Fugu Ultra está construido para máxima calidad de respuesta en problemas complejos de varios pasos. Los primeros usuarios lo aplicaron a investigación en IA, reproducción de papers científicos, análisis de ciberseguridad y búsquedas de patentes y literatura.
Según los benchmarks publicados por Sakana, Fugu Ultra rinde a la par con Fable 5 y Mythos Preview de Anthropic en una serie de pruebas de programación, razonamiento, ciencia y agentes. Ninguno de los modelos de Anthropic está en el pool de Fugu, ya que no son de acceso público; con ellos incluidos, la puntuación probablemente sería más alta. Sakana aclara que las cifras de comparación con los modelos base provienen de los propios proveedores.
Tabla de resultados publicados por Sakana
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 | Gemini 3.1 Pro | GPT 5.5 |
|---|---|---|---|---|---|
| SWE Bench Pro | 59,0 | 73,7 | 69,2 | 54,2 | 58,6 |
| TerminalBench 2.1 | 80,2 | 82,1 | 74,6 | 70,3 | 78,2 |
| LiveCodeBench | 92,9 | 93,2 | 87,8 | 88,5 | 85,3 |
| LiveCodeBench Pro | 87,8 | 90,8 | 84,8 | 82,9 | 88,4 |
| Humanity's Last Exam | 47,2 | 50,0 | 49,8 | 44,4 | 41,4 |
| CharXiv Reasoning | 85,1 | 86,6 | 84,2 | 83,3 | 84,1 |
| GPQA-D | 95,5 | 95,5 | 92,0 | 94,3 | 93,6 |
| SciCode | 60,1 | 58,7 | 53,5 | 58,9 | 56,1 |
| τ³ Banking | 21,7 | 20,6 | 20,6 | 8,4 | 20,6 |
| Long-Context Reasoning | 74,7 | 73,3 | 67,7 | 72,7 | 74,3 |
| MRCRv2 | 86,6 | 93,6 | 87,9 | 84,9 | 94,8 |
Orquestación como cobertura frente al lock-in
Sakana presenta Fugu como un seguro contra la dependencia de un único proveedor. La compañía cita los recientes controles de exportación sobre Fable y Mythos como ejemplo concreto: el acceso a sistemas top de IA puede desaparecer de un día para otro por cambios regulatorios o decisiones de política exterior.
"Para una organización o una nación, depender de las APIs de una sola compañía para infraestructura crítica, finanzas o gobernanza es una vulnerabilidad material. Este riesgo ya no es una posibilidad hipotética, sino una realidad", escribió Sakana AI en su anuncio.
El pool de modelos es totalmente intercambiable, por lo que el sistema puede redirigir a otros si un proveedor cae. Pero el rendimiento real depende de qué modelos estén disponibles: si varios proveedores top restringen acceso al mismo tiempo, las opciones de Fugu se achican. Una capa de orquestación aumenta la resiliencia, pero no equivale a soberanía técnica. Otro dato que Sakana no aborda en su anuncio: cuánto multiplica el costo por token la orquestación de varias llamadas a modelos pagos.
¿Qué dicen los primeros usuarios?
Unos 500 testers en beta ya probaron el sistema en escenarios reales, según Sakana. Fugu mostró su mayor ventaja en flujos largos de múltiples pasos: investigación automatizada de datos, análisis de seguridad y revisiones de código.
Un desarrollador citado por la compañía asegura que Fugu Ultra detecta muchos más bugs que GPT-5.5 en code review.
"Donde otras herramientas marcan unas tres issues, Fugu encontró más de veinte", dijo el desarrollador en el anuncio.
Sakana afirma que Fugu también superó a Gemini 3.1 Pro, Opus 4.8 y GPT 5.5 en sus pruebas propias de investigación automatizada, diseño mecánico y pronóstico financiero. Un video promocional muestra a Fugu resolviendo y visualizando un cubo de Rubik más rápido que los modelos individuales.
"La beta dejó claro que la orquestación multi-agente importa más cuando la tarea es desordenada, larga y difícil de resolver con una sola llamada a un modelo", escribe Sakana AI.
Ambas variantes están disponibles ahora a través de una API única en la página del producto y la consola. Sakana ofrece planes de suscripción para uso diario y facturación por uso para cargas mayores.
El contexto: ecosistema versus modelo único
El enfoque técnico de Fugu se apoya en investigación propia de Sakana sobre orquestación aprendida de modelos, en particular dos papers presentados en ICLR 2026, Trinity y Conductor. La idea encaja con la visión más amplia de la compañía, que aplica principios naturales como el comportamiento de enjambres, la evolución y la inteligencia colectiva a sistemas de IA. Para Sakana, la IA potente no es un problema de un único modelo, sino un ecosistema colaborativo que va más allá de lo que cualquier modelo individual puede hacer solo.
Sakana AI fue fundada por los ex investigadores de Google AI Llion Jones y David Ha. Jones es coautor del paper de 2017 Attention Is All You Need, que introdujo la arquitectura Transformer en la que se basan los LLM actuales.




