Cuando Google lanzó Gemini hace tres años, el objetivo era construir un modelo de lenguaje grande multimodal: una sola red neuronal entrenada sobre texto, imagen, audio y video, capaz de generar contenido en cualquiera de esos formatos.

Hoy, en su conferencia de desarrolladores Google I/O, la compañía dio un paso concreto hacia ese objetivo con Gemini Omni, una nueva familia de modelos multimodales que, según el CEO de Google Sundar Pichai, podrá "crear cualquier cosa desde cualquier input".

Omni empezará con video. Los usuarios pueden combinar imágenes, audio, video y texto, y en lugar de simplemente pegar esos inputs, Omni razona a través de todos ellos para producir una salida consistente. El resultado son videos de alta calidad que reflejan comprensión de física, cultura, historia y ciencia.

Omni también permite editar fotos con comandos en texto plano en vez de software complejo de edición, similar a Nano Banana de Google.

Google ya tenía un modelo dedicado de video, Veo, que permite convertir texto e imágenes en video, e incluso dirigir y personalizar avatares. Pero Nicole Brichtova, directora de gestión de producto de Google DeepMind, dice que el lanzamiento de hoy es más que una actualización de Veo.

"Es el siguiente paso en la progresión de combinar la inteligencia de Gemini con las capacidades de renderizado de nuestros modelos de medios", afirmó Brichtova en el briefing para prensa.

¿Qué tan bueno es el razonamiento multimodal?

Un ejemplo que dio Koray Kavukcuoglu, jefe de tecnología de DeepMind, durante un briefing del lunes: cuando le entregaron a Omni un prompt simple como "un explicador stop-motion sobre el plegamiento de proteínas", el modelo rápidamente renderizó un video de un explicador en stop-motion con una voz en off que decía: "Las proteínas comienzan como cadenas de aminoácidos. Se pliegan en patrones como la hélice alfa y secciones planas llamadas hojas beta, formando una forma tridimensional perfecta".

La visión de largo plazo de Omni es más amplia, e involucra usar el modelo para generar imágenes desde audio, o audio desde video.

"Cuando anunciamos Gemini por primera vez, fue nuestro primer modelo de IA nativamente multimodal", dijo Pichai durante el briefing. "Sabíamos que entrenarlo en una combinación de texto, código, audio, imágenes y video le daría una comprensión más profunda del mundo. Con los modelos del mundo, la IA se está moviendo de predecir texto a simular realidad. Gemini Omni es el siguiente paso en esa dirección".

¿Cómo previene Google el uso para deepfakes?

Como parte del lanzamiento, los usuarios también podrán crear videos con sus propios avatares digitales, algo que OpenAI popularizó en su app Sora ahora descontinuada con Cameos. Para prevenir deepfakes, los usuarios deberán pasar por un onboarding dedicado, que involucra grabarse a sí mismos diciendo una serie de números en voz alta. El avatar se almacena para uso futuro.

Adicionalmente, todos los videos creados con Omni incluirán la marca de agua digital SynthID de Google, que permite verificar si los videos fueron generados con productos Gemini. La estrategia es similar a la de los watermarks de C2PA: la marca está embebida a nivel de pixel y resiste la mayoría de las transformaciones de compresión.

¿Cuándo se libera y a qué precio?

El primer modelo de la familia es Gemini Omni Flash, que se desplegará hoy a la app de Gemini, YouTube Shorts y al estudio creativo Flow. Flash puede renderizar 10 segundos de video, lo que según Brichtova no es una limitación del modelo sino una decisión basada en el deseo de ponerlo en más manos y la anticipación de que la mayoría de los usuarios no querrá hacer videos mucho más largos por ahora. Duraciones más largas están en el pipeline para el futuro cercano.

Google está posicionando a Omni Flash como una herramienta de consumo masivo más que profesional. Los ejemplos que Brichtova y Gabe Barth-Maron, ingeniero de investigación en DeepMind, dieron en una llamada con TechCrunch sobre el uso de avatares digitales fueron todos personales: hacer un video de uno mismo ganando un premio, por ejemplo.

Para el ecosistema creativo en Chile y LatAm, la inclusión de SynthID por defecto es relevante: el problema de origen del video sintético llegó a Sudamérica durante la campaña electoral de 2025, y un mecanismo de verificación nativo facilitaría que medios y fact-checkers regionales identifiquen contenido generado por Omni sin depender de análisis forense post-hoc.