La herramienta, disponible en Android, iOS y para integrar en apps y servicios online, tiene un retraso en el doblaje de menos de 1 segundo y mantiene la cadencia original.
Google presentó hoy oficialmente Gemini 3.5 Live Translate, su modelo de traducción de idiomas más avanzado hasta la fecha, diseñado para ofrecer traducciones fluidas en más de 70 idiomas, con apenas un instante de demora y con una enorme fluidez al generar el audio de la traducción.
Esta nueva tecnología marca un punto de inflexión en la trayectoria de la compañía, que comenzó sus experimentos de traducción hace dos décadas con el objetivo de transformar la ciencia del lenguaje en conexiones humanas.
El nuevo modelo trae funciones que superan ampliamente las capacidades de los sistemas tradicionales de inteligencia artificial. Gemini 3.5 Live Translate detecta automáticamente los idiomas involucrados y genera un habla natural que conserva la entonación, el ritmo y el tono original del locutor.
A diferencia de las versiones previas que funcionaron de forma secuencial, esperando a que una persona terminara de hablar para procesar la respuesta, este sistema opera de manera continua. El modelo logra así un equilibrio entre la espera por el contexto para mejorar la calidad y la traducción inmediata para mantenerse sincronizado: el audio se genera con menos de un segundo de retraso respecto del hablante original durante toda la sesión.
Las diferencias con las versiones anteriores resultan drásticas, especialmente en herramientas de productividad. En Google Meet, el servicio pasó de admitir solo cinco idiomas a soportar más de 70, lo que permite más de 2000 combinaciones lingüísticas dentro de una misma reunión. Anteriormente, las traducciones se limitaban únicamente a intercambios desde o hacia el inglés, pero esta restricción desaparece con la nueva arquitectura. Asimismo, el modelo demostró una alta capacidad de seguir funcionando con ruido ambiente, lo que facilita su uso en entornos con sonidos ambientales fuertes o impredecibles.
Google puso la herramienta a disposición de los desarrolladores a través de la API de Gemini Live y Google AI Studio en una versión de vista previa pública. Empresas como Grab están probando el modelo para facilitar la comunicación entre conductores y viajeros. Por otro lado, los usuarios generales acceden a esta innovación mediante la aplicación Google Translate en dispositivos Android e iOS.
Una de las funciones más comentadas es el “modo de escucha” exclusivo para Android. Esta característica permite a los usuarios sostener el teléfono contra el oído, tal como en una llamada telefónica convencional, para recibir la traducción de forma privada a través del auricular. Esta opción resulta ideal para situaciones donde no hay auriculares disponibles o se está en un lugar público.
Todo el audio generado por el modelo incluye una marca de agua digital, imperceptible, denominada SynthID. Esta firma digital se genera directamente en la salida de audio para asegurar que el contenido generado por IA sea detectable como tal, ayudando a prevenir la desinformación y las estafas.
