Google liberó Omni Flash, el primer integrante de Gemini Omni, una nueva familia de modelos generativos que apunta a convertir cualquier entrada (foto, video, texto) en cualquier salida. Por ahora solo genera video y está disponible dentro de Flow, la plataforma de generación y edición de Google. Veo, el modelo anterior, sigue activo, pero Omni propone tres mejoras concretas: aceptar video como punto de partida, incorporar más conocimiento del mundo real, y mantener consistencia de personajes a lo largo de un clip.

La periodista Allison Johnson, de The Verge, lo probó durante varias horas y publicó un reporte directo. Las conclusiones no son lo que Google querría escuchar, pero tampoco es un descarte. Es un veredicto incómodo: la tecnología funciona mejor de lo razonable.

¿Qué cambia frente a Veo?

Con Omni, el usuario puede subir un video y combinarlo con un prompt textual como punto de partida de la generación. Google dice que el modelo conserva mejor a los personajes a lo largo de una escena. Las pruebas de Johnson lo confirmaron solo a medias: los clips de su peluche "Buddy" empacando para vacaciones se ven mucho más coherentes que cinco meses atrás con Veo, pero todavía aparecen jump scares visuales, como el peluche cambiando de orientación de repente mientras hace paracaidismo, o un frasco de miel que muta de jar a botella exprimible a lo largo de la misma toma.

La edición textual del video, una funcionalidad que en Veo 3 era casi inutilizable, ahora sí responde. Pero los resultados son irregulares. Cuando Johnson le pidió enfatizar las expresiones faciales del peluche, Omni le agregó astas que el personaje nunca tuvo. Al pedirle que las quitara de una escena, las agregó en todas las demás.

El experimento que dio escalofríos

La promesa más fuerte de Omni es agregar elementos generados sobre video real. Johnson grabó un selfie con expresión neutra y le pidió al modelo que la mostrara comiendo pasta, sentada en un avión y frente a la Torre Eiffel mordiendo un baguette.

"Genuinamente puedo decir que no estaba preparada para lo que vi."

Hay pequeños indicios de IA en los clips, como un sonido del tenedor contra el plato que suena demasiado producido, o una mujer de fondo del avión que aparece dos veces. Pero el resto convence. Johnson le mostró el clip de la pasta a su marido, sin avisarle qué era generado por IA. El marido aceptó que era ella sentada frente a una cámara comiendo pasta, y su única observación fue que el bowl no le sonaba familiar.

"Un hombre que me ha visto en la vida real básicamente todos los días durante la última década."

Los clips frente a la Torre Eiffel tienen varios niveles de "lo suficientemente bueno para engañar en redes sociales". Algunos se ven ligeramente caricaturescos, pero al menos uno pasaría sin que la mayoría de los usuarios detectara la diferencia.

¿Cuánto cuesta?

Generar video con Omni cuesta créditos: entre 15 y 40 por clip según la duración y los "ingredientes" iniciales, y 40 créditos por cada ronda de edición. El plan AI Pro de Google cuesta 20 dólares al mes y entrega 1.000 créditos. Tras unos 20 clips con algunas ediciones, Johnson terminó con 145 créditos en su cuenta.

Para usuarios con una idea fija del video que quieren producir, el ida y vuelta con el modelo puede salir caro. Para experimentación libre, el plan rinde para varias horas de juego.

El veredicto: valle inquietante, no singularidad

Veo 3 había sorprendido por su realismo. Omni Flash sigue mejorando, pero el efecto sorpresa empieza a desgastarse. Como concluye Johnson, "no estamos exactamente en las estribaciones de la singularidad, pero sí estamos profundamente metidos en el valle inquietante". Para Chile y Latinoamérica, el aspecto relevante es de bajo umbral: cualquier persona con una cuenta de Google y una tarjeta puede generar un deepfake convincente con esfuerzo mínimo, lo que reabre la conversación regional sobre detección y consentimiento de imagen.

Imágenes y videos del reportaje original generados con Google Gemini.