Thinking Machines Lab, la startup que fundó Mira Murati tras su salida como CTO de OpenAI, publicó este martes la versión preview de su primer modelo propio: TML-Interaction-Small. Se trata de un mixture-of-experts de 276 mil millones de parámetros con 12 mil millones activos, diseñado específicamente para sostener conversaciones de voz que no dependan del ciclo rígido pregunta-respuesta.
¿Qué hace distinto a TML-Interaction-Small?
A diferencia de GPT-Realtime 2 y Gemini Live, que delegan la detección de turnos a un módulo externo, el modelo de Thinking Machines procesa audio, video y texto directamente en bloques paralelos de 200 milisegundos. La empresa llama a esta arquitectura time-aligned micro-turns: tanto la entrada como la salida del modelo comparten el mismo ciclo de reloj de 200 ms, eliminando las fronteras artificiales de turno.
El argumento técnico es que los sistemas actuales colocan una capa de scaffolding antes del modelo, con un voice activity detector y segmentadores de utterance que deciden cuándo terminó el turno del hablante. Ese pegamento es invariablemente menos inteligente que el modelo principal, según el laboratorio. Eso hace imposibles comportamientos como interrumpir al usuario cuando dice algo incorrecto, reaccionar a una señal visual o hablar simultáneamente para traducir en tiempo real.
Para no sacrificar la profundidad analítica, Thinking Machines empareja el modelo rápido de interacción con un segundo modelo asincrónico que corre en background. El modelo interactivo delega tareas largas (razonamiento, uso de tools, búsqueda) mientras mantiene la conversación viva y entreteje los resultados cuando llegan, en un momento apropiado para el usuario.
¿Cuánto más rápido es vs OpenAI y Google?
La startup publicó benchmarks comparativos directos:
- Latencia de respuesta: 0,40 segundos contra 1,18 segundos en GPT-Realtime 2 y 0,57 segundos en Gemini-3.1-flash-live.
- FD-bench v1.5, que mide calidad de interacción ante interrupciones, backchanneling y ruido de fondo: supera de forma significativa a ambos competidores.
- Audio MultiChallenge sobre instruction following: 43,4% de precisión, por encima de las variantes rápidas pero por debajo del modo xhigh de GPT-Realtime 2, que alcanza 48,5%.
En benchmarks propios sobre conciencia temporal (TimeSpeak, CueSpeak) y proactividad visual (RepCount-A, ProactiveVideoQA, Charades), Thinking Machines asegura que ningún modelo de la competencia logra resolverlos: o se quedan callados o responden incorrectamente.
La presión financiera detrás del lanzamiento
Thinking Machines Lab se fundó en febrero de 2025. En julio de ese año cerró una seed round de USD 2.000 millones a valoración de USD 12.000 millones, todavía sin producto. Una ronda secundaria reportada en USD 50.000 millones no se concretó hacia fin de 2025, y varios empleados clave salieron de la compañía en las últimas semanas, según The Decoder.
El único producto previo de la empresa era Tinker, una herramienta para fine-tuning eficiente de modelos open source con LoRAs. TML-Interaction-Small es, por tanto, el primer modelo in-house que respalda la tesis de Murati: que su laboratorio puede competir cara a cara con OpenAI, Anthropic y Google DeepMind.
¿Cuándo y cómo se podrá usar?
Por ahora el modelo está disponible solo como research preview. Thinking Machines no anunció precios públicos ni acceso vía API para desarrolladores, aunque sí confirmó que pondrá el modelo en manos de socios seleccionados para evaluación. El posicionamiento técnico, latencia agresiva y benchmarks de interacción, sugiere que el target inicial son aplicaciones de soporte conversacional, traducción simultánea y agentes de voz multimodales donde el formato pregunta-respuesta clásico se siente robótico.




