Google DeepMind dio el siguiente paso en la apuesta multimodal de Gemini con el lanzamiento de Gemini Omni, una familia de modelos generativos que produce video a partir de cualquier combinación de entrada: imágenes, audio, video y texto. El primer integrante, Omni Flash, salió hoy a Google AI Plus, Pro y Ultra en la app Gemini, en Google Flow y, sin costo, en YouTube Shorts y YouTube Create.
La compañía la posiciona como sucesora natural de Nano Banana, el modelo para imagen que el año pasado ayudó a "millones de personas a restaurar fotos viejas, diseñar desde bocetos y visualizar ideas". Si Nano Banana fue el momento image-gen de Gemini, Omni quiere ser el momento video-gen.
¿Qué hace especial a Gemini Omni respecto a otros generadores de video?
DeepMind distingue Omni por tres capacidades centrales: edición conversacional con memoria de escena, fundamentación en conocimiento del mundo y mezcla de referencias multimodales en un único clip cohesivo.
¿Cómo se edita un video por conversación con Omni?
Cada instrucción se construye sobre la anterior. Los personajes mantienen consistencia, la física se sostiene y la escena recuerda lo que pasó antes en la secuencia de edición. Tres ejemplos que DeepMind destaca:
- Transformar el mundo alrededor: cambiar cosas específicas o reemplazar todo el entorno. El video original es solo el punto de partida.
- Reimaginar la acción: tomar un video que se grabó y pedirle a Omni cambiar lo que pasa, agregar personajes u objetos, o transformar un momento.
- Refinar el video en múltiples turnos: cambiar ambiente, ángulo, estilo o detalles puntuales sin perder el hilo de la escena original.
Es la primera vez que un generador de video se vende con énfasis explícito en edición multi-turno consistente, no solo generación one-shot desde un prompt.
¿Qué significa que Omni esté "fundamentado" en conocimiento del mundo?
DeepMind argumenta que Omni no se limita a construir escenas que parecen reales: razona sobre qué debería pasar después. Combina un entendimiento intuitivo de la física con el conocimiento de Gemini sobre historia, ciencia y contexto cultural. La compañía promete:
- Física más precisa en visuales con gravedad, energía cinética y dinámica de fluidos mejor modeladas.
- Mezcla de conocimiento y creatividad que va más allá del pattern matching puro de los generadores anteriores.
- Explicadores complejos desde prompts cortos: el modelo puede armar visuales que descomponen ideas técnicas.
La promesa es agresiva. La validación independiente, sin embargo, todavía no está: DeepMind no publicó benchmarks comparativos contra Sora 3, Veo 4 (su propia familia interna previa), ni Pika 2.0.
¿Qué entradas acepta Omni para generar un video?
La capacidad bandera del modelo es la referencia cruzada multimodal. Omni convierte cualquier referencia (imagen, texto, video o audio) en una salida cohesiva única. Al inicio, en audio solo se soportan referencias de voz, pero DeepMind prometió otros tipos de audio "pronto".
Casos de uso que la compañía sugiere:
- Empezar desde lo que ya tienes: imágenes de personajes, escenas o dibujos para crear contenido que matchee tu visión.
- Aplicar estilos, movimiento o efectos: definir el lenguaje visual con referencias o describirlo en lenguaje natural.
¿Cómo funcionan los avatares con tu propia voz?
DeepMind agregó la función Avatars para crear videos con tu propia voz. Genera una versión digital del usuario que parece y suena como él. Es la apuesta de Google por entrar al territorio que HeyGen y Synthesia dominan en marketing.
Sobre la edición de audio y voz en videos existentes, la compañía marcó cautela explícita: "todavía estamos trabajando para probarlo y entender cómo lo traemos responsablemente". Cualquier edición de audio en video ajeno queda fuera del lanzamiento inicial.
Todos los videos hechos con Omni incluyen el watermark digital SynthID de DeepMind, imperceptible para el ojo pero verificable a través de la app Gemini, Gemini in Chrome y Google Search. Para Chile y la región es relevante: SynthID es una de las pocas marcas robustas que sobreviven a recodificación moderada, importante en disputas de autoría que se vienen.
¿Dónde y desde cuándo se puede usar?
| Plataforma | Disponibilidad | Costo |
|---|---|---|
| App Gemini | Hoy | Google AI Plus, Pro o Ultra |
| Google Flow | Hoy | Google AI Plus, Pro o Ultra |
| YouTube Shorts | Esta semana | Gratis |
| YouTube Create App | Esta semana | Gratis |
| API para desarrolladores | "Próximas semanas" | Por confirmar |
| API empresarial | "Próximas semanas" | Por confirmar |
El plan Google AI Ultra se rebajó ayer de USD 249,99 a USD 100 mensuales a nivel global, lo que abarata sustantivamente el costo de entrada al modelo Omni más capaz. Para Chile, el precio en CLP no fue anunciado en el keynote; lo más probable es un ajuste local en las próximas semanas.
Datos clave en una mirada
- Primer modelo: Gemini Omni Flash, disponible hoy.
- Entradas soportadas: imagen, video, texto, voz (otros audios pronto).
- Salida actual: video; imagen y audio "con el tiempo".
- Distribución gratis: YouTube Shorts y YouTube Create App esta semana.
- Distribución pagada: app Gemini y Google Flow con suscripción AI Plus, Pro o Ultra.
- Marca de contenido: SynthID en cada clip generado.
- Comparable directo: sucesor multimodal de Nano Banana (imagen, lanzado 2025).




