Mira Murati estrena modelo IA que supera a GPT-Realtime 2

Thinking Machines Lab presenta TML-Interaction-Small, un modelo MoE de 276 mil millones de parámetros que procesa audio, video y texto en bloques paralelos de 200 milisegundos.

Publicado el 13 de mayo de 2026 · 02:13 a. m.3 min de lectura

Al grano

Thinking Machines Lab, la startup de Mira Murati, lanzó TML-Interaction-Small, su primer modelo IA con 276 mil millones de parámetros (12 mil millones activos).

El modelo procesa audio, video y texto en bloques paralelos de 200 milisegundos, eliminando el formato rígido pregunta-respuesta.

Logra 0,40 segundos de latencia, debajo de GPT-Realtime 2 (1,18 s) y Gemini Live (0,57 s) según The Decoder.

Por qué importa

El argumento técnico es sólido: si la percepción del modelo se congela mientras habla, no hay conversación natural posible. Pero el negocio de Thinking Machines sigue colgado de un hilo. La ronda reportada de USD 50.000 millones no se cerró a fin de 2025 y varios fundadores se fueron. La pregunta es si la calidad técnica alcanza para defender una valoración de USD 12.000 millones sin clientes pagando.

Thinking Machines Lab, la startup que fundó Mira Murati tras su salida como CTO de OpenAI, publicó este martes la versión preview de su primer modelo propio: TML-Interaction-Small. Se trata de un mixture-of-experts de 276 mil millones de parámetros con 12 mil millones activos, diseñado específicamente para sostener conversaciones de voz que no dependan del ciclo rígido pregunta-respuesta.

¿Qué hace distinto a TML-Interaction-Small?

A diferencia de GPT-Realtime 2 y Gemini Live, que delegan la detección de turnos a un módulo externo, el modelo de Thinking Machines procesa audio, video y texto directamente en bloques paralelos de 200 milisegundos. La empresa llama a esta arquitectura time-aligned micro-turns: tanto la entrada como la salida del modelo comparten el mismo ciclo de reloj de 200 ms, eliminando las fronteras artificiales de turno.

El argumento técnico es que los sistemas actuales colocan una capa de scaffolding antes del modelo, con un voice activity detector y segmentadores de utterance que deciden cuándo terminó el turno del hablante. Ese pegamento es invariablemente menos inteligente que el modelo principal, según el laboratorio. Eso hace imposibles comportamientos como interrumpir al usuario cuando dice algo incorrecto, reaccionar a una señal visual o hablar simultáneamente para traducir en tiempo real.

Para no sacrificar la profundidad analítica, Thinking Machines empareja el modelo rápido de interacción con un segundo modelo asincrónico que corre en background. El modelo interactivo delega tareas largas (razonamiento, uso de tools, búsqueda) mientras mantiene la conversación viva y entreteje los resultados cuando llegan, en un momento apropiado para el usuario.

¿Cuánto más rápido es vs OpenAI y Google?

La startup publicó benchmarks comparativos directos:

Latencia de respuesta: 0,40 segundos contra 1,18 segundos en GPT-Realtime 2 y 0,57 segundos en Gemini-3.1-flash-live.
FD-bench v1.5, que mide calidad de interacción ante interrupciones, backchanneling y ruido de fondo: supera de forma significativa a ambos competidores.
Audio MultiChallenge sobre instruction following: 43,4% de precisión, por encima de las variantes rápidas pero por debajo del modo xhigh de GPT-Realtime 2, que alcanza 48,5%.

En benchmarks propios sobre conciencia temporal (TimeSpeak, CueSpeak) y proactividad visual (RepCount-A, ProactiveVideoQA, Charades), Thinking Machines asegura que ningún modelo de la competencia logra resolverlos: o se quedan callados o responden incorrectamente.

La presión financiera detrás del lanzamiento

Thinking Machines Lab se fundó en febrero de 2025. En julio de ese año cerró una seed round de USD 2.000 millones a valoración de USD 12.000 millones, todavía sin producto. Una ronda secundaria reportada en USD 50.000 millones no se concretó hacia fin de 2025, y varios empleados clave salieron de la compañía en las últimas semanas, según The Decoder.

El único producto previo de la empresa era Tinker, una herramienta para fine-tuning eficiente de modelos open source con LoRAs. TML-Interaction-Small es, por tanto, el primer modelo in-house que respalda la tesis de Murati: que su laboratorio puede competir cara a cara con OpenAI, Anthropic y Google DeepMind.

¿Cuándo y cómo se podrá usar?

Por ahora el modelo está disponible solo como research preview. Thinking Machines no anunció precios públicos ni acceso vía API para desarrolladores, aunque sí confirmó que pondrá el modelo en manos de socios seleccionados para evaluación. El posicionamiento técnico, latencia agresiva y benchmarks de interacción, sugiere que el target inicial son aplicaciones de soporte conversacional, traducción simultánea y agentes de voz multimodales donde el formato pregunta-respuesta clásico se siente robótico.

Mira Murati estrena modelo IA que supera a GPT-Realtime 2

Al grano

Por qué importa

¿Qué hace distinto a TML-Interaction-Small?

¿Cuánto más rápido es vs OpenAI y Google?

La presión financiera detrás del lanzamiento

¿Cuándo y cómo se podrá usar?

Seguir leyendo

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

→Al grano

✦Por qué importa

¿Qué hace distinto a TML-Interaction-Small?

¿Cuánto más rápido es vs OpenAI y Google?

La presión financiera detrás del lanzamiento

¿Cuándo y cómo se podrá usar?

Seguir leyendo

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

Al grano

Por qué importa