Thinking Machines lanza TML-Interaction-Small, su MoE de voz

El nuevo modelo es un Mixture-of-Experts de 276B parámetros con 12B activos, entrenado desde cero para diálogo en tiempo real con audio y video integrados, en microturnos de 200 ms.

Publicado el 12 de mayo de 2026 · 03:41 p. m.2 min de lectura

Al grano

Thinking Machines presentó TML-Interaction-Small, un modelo MoE de 276B parámetros con 12B activos para interacción en tiempo real.

Procesa audio, video y texto en microturnos de 200 milisegundos, sin separar etapas de escucha y respuesta como los LLM tradicionales.

Supera a GPT-Realtime-2 y Gemini 3.1-Flash en benchmarks de audio como BigBench Audio, IFEval y FD-bench según la compañía.

Por qué importa

Thinking Machines tenía que mostrar algo grande después de un año de drama corporativo y solo dos publicaciones técnicas. Esta lo es. No por los benchmarks (los superan en meses) sino por el cambio de tipo: pasar de turnos a tiempo continuo no es una optimización, es una redefinición de la interfaz. Si efectivamente se libera o se vuelve API, mata la cuota de mercado de los productos que todavía dependen de stacks de TTS y STT separados con detección de actividad de voz manual.

Thinking Machines, el laboratorio fundado por Mira Murati tras su salida de OpenAI, presentó este lunes su primer modelo de investigación: TML-Interaction-Small, un modelo nativo de interacción en tiempo real entrenado desde cero, no a partir de un LLM al que se le inyecta voz y turnos. El anuncio aparece en su blog técnico y marca apenas la tercera publicación pública de la startup desde su fundación.

La arquitectura es un Mixture-of-Experts de 276 mil millones de parámetros totales con 12 mil millones activos por token, optimizado para procesar audio, video y texto de manera simultánea y sin separar etapas. El equipo lo describe como un cambio de tipo: la firma del sistema deja de ser texto a texto y pasa a ser audio+video+texto a audio+texto, todo continuo en el tiempo.

¿Qué hace distinto a TML-Interaction-Small?

El núcleo es lo que Thinking Machines llama microturnos de 200 milisegundos alineados en el tiempo. El modelo no espera a que el usuario termine de hablar para responder, ni anuncia "ahora estoy pensando, ahora estoy buscando" como hacen los agentes actuales. Escucha, mira y responde en paralelo, con interrupciones permitidas en ambos sentidos. La fusión usa encoder-free early fusion, similar al enfoque que Meta propuso con Chameleon: imágenes y audio se procesan en menos de 200 ms.

¿Cómo se compara con GPT-Realtime-2 y Gemini 3.1-Flash?

Los benchmarks publicados por la propia compañía muestran que TML-Interaction-Small supera a GPT-Realtime-2 de OpenAI y a Gemini 3.1-Flash de Google en pruebas estándar de audio como BigBench Audio, IFEval y FD-bench. Pero como el equipo apunta a una experiencia que va más allá del benchmark clásico de voz, también construyó dos pruebas nuevas:

TimeSpeak: el modelo debe iniciar habla en momentos específicos sin que el usuario lo invoque. Ejemplo: "recuérdame respirar cada cuatro segundos hasta que te diga basta".
CueSpeak: el modelo debe hablar en el momento adecuado según un evento contextual. Ejemplo: "cada vez que cambie de idioma, dame la palabra correcta en el idioma original".

Además adapta tres benchmarks de visión existentes: RepCount-A para conteo continuo de repeticiones, ProactiveVideoQA para responder en el momento exacto cuando la respuesta se vuelve visible, y Charades para localización temporal de acciones.

Detalles de implementación y roadmap

Un detalle filtrado por miembros del equipo en X es que el stack de inferencia corre sobre SGLang, el motor open source que ya usa parte del ecosistema de modelos abiertos. El blog también deja entrever que el siguiente paso es emparejar estos modelos interactivos con agentes en segundo plano, lo que en la práctica significaría que un asistente puede hablar contigo mientras un agente trabaja en otra tarea sin interrumpir el diálogo.

Para el ecosistema chileno y latinoamericano la noticia tiene una lectura concreta. Hoy las experiencias estilo "asistente con voz" dependen de stacks de OpenAI o Google con latencia variable y costos altos por minuto. Si Thinking Machines libera el modelo o un API competitivo, integradores locales podrían replicar la interacción tipo "her" sobre un Jetson Orin Nano AGX o un servidor con dos GPUs H100, con audio bidireccional sin las pausas artificiales típicas del push-to-talk actual.

Thinking Machines lanza TML-Interaction-Small, su MoE de voz

Al grano

Por qué importa

¿Qué hace distinto a TML-Interaction-Small?

¿Cómo se compara con GPT-Realtime-2 y Gemini 3.1-Flash?

Detalles de implementación y roadmap

Seguir leyendo

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

→Al grano

✦Por qué importa

¿Qué hace distinto a TML-Interaction-Small?

¿Cómo se compara con GPT-Realtime-2 y Gemini 3.1-Flash?

Detalles de implementación y roadmap

Seguir leyendo

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

Al grano

Por qué importa