Traducción de voz fluida y natural con Gemini 3.5 Live Translate

Hace veinte años, la traducción en Google comenzó como uno de nuestros experimentos pioneros en aprendizaje automático para convertir la ciencia del lenguaje en la magia de la conexión humana. Ese experimento ha recorrido un largo camino, con más de un billón de palabras traducidas para miles de millones de usuarios en nuestros productos cada mes.

Hoy, damos nuestro siguiente paso con el lanzamiento de Gemini 3.5 Live Translate, nuestro modelo de audio más reciente para traducción de voz a voz en vivo.

El modelo detecta automáticamente más de 70 idiomas y genera un habla traducida suave y natural que preserva la entonación, el ritmo y el tono de los hablantes. A diferencia de los sistemas de turno a turno que esperan a que el hablante termine antes de responder, 3.5 Live Translate genera audio continuamente, equilibrando la compensación entre esperar contexto para mejorar la calidad y traducir de inmediato para mantenerse sincronizado. Ofrece audio fluido sin pausas incómodas y mantiene apenas unos segundos de retraso respecto al hablante durante toda la sesión.

Gemini 3.5 Live Translate se está implementando desde hoy en los productos de Google:

  • Para empresas en vista previa privada a partir de este mes en Google Meet
  • Para todos los usuarios a través de Google Traductor en Android e iOS

¿Cómo desarrollar con 3.5 Live Translate?

Gemini 3.5 Live Translate procesa la voz mientras se transmite, permitiendo una conexión más fluida entre idiomas. El modelo maneja entradas multilingües sin necesidad de configurar ajustes manualmente. Al mismo tiempo, su robustez contra el ruido asegura que las aplicaciones puedan operar en entornos ruidosos e impredecibles. Puede utilizar sus capacidades para facilitar la interpretación en vivo para llamadas, reuniones, lecciones, transmisiones y más.

Al utilizar la Gemini Live API, plataformas de desarrolladores como Agora, Fishjam, LiveKit, Pipecat y Vision Agents permiten crear y desplegar aplicaciones de traducción de voz con facilidad. Estas integraciones gestionan la compleja infraestructura de transmisión de medios en tiempo real, permitiendo que los desarrolladores se enfoquen en la experiencia del usuario.

Nuestros socios en Grab están probando el modelo para permitir la comunicación multilingüe casi en tiempo real entre conductores y pasajeros durante los viajes. Estos usuarios realizan más de 10 millones de llamadas de voz por mes a través de Grab.

Lea las primeras reseñas

Además de Grab, empresas como CJ ENM, LiveKit y otras han compartido comentarios positivos sobre 3.5 Live Translate, destacando su calidad de traducción, precisión y baja latencia.

¿Cómo experimentar 3.5 Live Translate en videollamadas?

La traducción de voz en Google Meet utilizará pronto 3.5 Live Translate, mejorando la experiencia mediante:

  • Ofrecer más de 70 idiomas, una mejora desde el límite anterior de solo cinco idiomas.
  • Permitir conversaciones en más de 2000 combinaciones de idiomas en una misma reunión, expandiéndose desde la capacidad anterior de traducir solo desde y hacia el inglés.
  • Actualizar la interfaz para proporcionar acceso instantáneo a la traducción de voz.

Lanzaremos esta actualización en vista previa privada para clientes selectos de Google Workspace a partir de este mes, seguido de un lanzamiento más amplio a finales de este año.

Obtenga 3.5 Live Translate en la app de Google Traductor

El modelo también se está implementando en la aplicación de Google Traductor a nivel mundial, tanto en Android como en iOS. Al usar la función de traducción en vivo, simplemente conecte cualquier par de auriculares para experimentar una traducción más fluida que refleja el tono del hablante en más de 70 idiomas.

Para usuarios de Android, también estamos comenzando a implementar un nuevo 'modo de escucha' con 3.5 Live Translate que permite escuchar las traducciones directamente a través del auricular del teléfono. Simplemente sostenga su teléfono contra su oído como en una llamada normal, y el audio traducido se transmitirá directamente a usted. Esta experiencia es útil en situaciones donde desea escuchar traducciones rápidamente sin que otros escuchen y no tiene auriculares a mano.

Protección con marcas de agua SynthID

Todo el audio generado por nuestros modelos incluye marcas de agua con SynthID. Esta marca imperceptible se integra directamente en la salida de audio, asegurando que el contenido generado por IA permanezca detectable para ayudar a prevenir la desinformación. Para detalles sobre nuestro enfoque de seguridad y responsabilidad, revise la tarjeta del modelo.

Sobre de boletín informativo parte trasera
Sobre de boletín informativo parte trasera
Sobre con carta aprobada
Sobre con carta aprobada
Sobre con carta de Google
Sobre con carta de Google
Sobre de boletín informativo parte frontal
Sobre de boletín informativo parte frontal

Vía Google DeepMind.