
1. 1. Qué es Gemini 3.5 Live Translate
Gemini 3.5 Live Translate es un modelo de traducción de voz a voz en tiempo real que Google anunció el 9 de junio de 2026. Dos características lo distinguen de productos de traducción anteriores.
Primero, es de audio a audio en lugar del pipeline tradicional de voz a texto a traducción a texto a voz. El modelo acepta audio de origen transmitido en fragmentos de 100 milisegundos y produce habla traducida como salida. Las transcripciones de texto están disponibles, pero solo como complemento de la salida hablada — no hay modo de texto en tiempo real y no hay atribución de hablante en el audio traducido.
Segundo, la voz generada está diseñada para preservar la prosodia del hablante. El anuncio de Google describe una salida que retiene la entonación, el ritmo y el tono del hablante. En la práctica, esto produce una voz traducida que suena sustancialmente más natural que un motor genérico de texto a voz leyendo una traducción en voz alta — una ventaja real sobre sistemas de traducción de voz cuya salida de audio pasa por una capa estándar de TTS.
El modelo está construido sobre Gemini 3 Pro. Según la ficha técnica del modelo Gemini 3.5 Audio publicada por Google DeepMind, acepta entrada de audio con hasta una ventana de contexto de 128K tokens y produce salida de audio + texto hasta 64K tokens. Detecta automáticamente más de 70 idiomas, incluyendo cambios rápidos de idioma entre hablantes, aunque esa detección tiene debilidades documentadas (cubiertas en la Sección 4).
El lanzamiento cubre tres superficies de producto en paralelo: acceso para desarrolladores a través de la API Gemini Live y Google AI Studio (vista previa pública desde el 9 de junio de 2026); acceso para consumidores a través de la aplicación Google Translate en Android e iOS, desplegándose globalmente desde ese día, con un nuevo "modo de escucha" en Android; y acceso empresarial a través de Google Meet en vista previa privada para clientes selectos de Google Workspace, donde expande la cobertura de traducción de Meet de 5 idiomas a 70+ y soporta más de 2,000 combinaciones de origen/destino dentro de una sola reunión.
2. 2. Cómo Funciona: Arquitectura de Audio a Audio y Preservación de Prosodia
Tres decisiones arquitectónicas distinguen a Gemini 3.5 Live Translate de sistemas de traducción en tiempo real anteriores.
Voz a voz, no voz a texto a voz
Los pipelines tradicionales procesan audio a través de un modelo de voz a texto en tiempo real, alimentan la transcripción a un modelo de traducción automática, luego sintetizan la traducción a través de un modelo separado de texto a voz. Cada etapa añade latencia y acumula errores. Gemini 3.5 Live Translate combina estos pasos en un modelo de audio. El compromiso: la salida es audio permanente, no texto editable — una vez que se pronuncia una palabra, no puede revisarse a mitad de la emisión.
Transmisión continua, no basada en turnos
El anuncio de Google enmarca el modelo como uno que "equilibra el compromiso entre esperar contexto para mejorar la calidad y traducir inmediatamente para mantenerse sincronizado con el hablante". Productos de consumo anteriores como el modo Conversación previo de Google Translate eran basados en turnos: tocar, hablar, esperar a que el sistema finalice y emita la traducción, luego dejar que la otra parte toque. Gemini 3.5 Live Translate emite habla traducida continuamente mientras el hablante de origen aún está hablando, con Google describiendo un retraso de "unos pocos segundos".
Transferencia de prosodia
El modelo está diseñado para llevar las características vocales del hablante de origen — entonación, ritmo, énfasis, tono — al audio traducido. Esta es la razón técnica principal por la que la salida suena natural en lugar de robótica. También es la fuente de las limitaciones de consistencia de voz que revela la ficha técnica de Google (Sección 4).
En la superficie de desarrollador, cada sesión usa audio PCM de 16 bits sin procesar a 16 kHz mono como entrada y produce audio PCM mono de 24 kHz como salida, enviado en fragmentos de 100 milisegundos. Todo el audio generado lleva la marca de agua SynthID de Google — una firma imperceptible tejida en la forma de onda que permite a sistemas posteriores identificar el audio como generado por máquina.

3. 3. Donde Gemini 3.5 Live Translate es Más Fuerte
Cinco fortalezas del producto se muestran inmediatamente al comparar Gemini 3.5 Live Translate con sus pares.
Habla traducida de sonido natural. La voz que preserva la prosodia es la ventaja más clara sobre sistemas de traducción de voz cuya salida de audio pasa por un motor TTS genérico. Si has usado una aplicación de traducción de voz cuyo audio traducido suena como un narrador plano leyendo una cadena de palabras, el contraste es inmediato. Gemini 3.5 Live Translate es materialmente mejor aquí, y la diferencia es audible desde la primera oración.
Simplicidad de audio a audio. Construir una aplicación de traducción de voz tradicionalmente ha significado encadenar un modelo STT en tiempo real (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), un modelo de traducción y un motor TTS — y manejar la semántica de emisión parcial de cada uno. Gemini 3.5 Live Translate reemplaza esa cadena con una llamada API, simplificando tanto el código de la aplicación como la superficie de falla.
Detección automática de idioma a escala. 70+ idiomas detectados automáticamente, sin necesidad de que el usuario establezca un par de idiomas por adelantado. El posicionamiento de Google enfatiza casos de uso como reuniones multipartidarias donde los hablantes cambian idiomas a mitad de conversación.
Distribución. Integrado directamente en la aplicación Google Translate para consumidores y Google Meet. Para usuarios finales, el costo de instalación y descubrimiento es casi cero — ya tienen la aplicación. Para clientes de Meet, la traducción llega como un interruptor de función dentro de un flujo de trabajo que ya está en uso.
Salida con marca de agua. La marca de agua SynthID hace que el habla generada sea identificable como generada por IA para casos de uso de cumplimiento posteriores, lo cual es útil en industrias reguladas que necesitan rastrear contenido generado por IA.
4. 4. Lo que la Propia Ficha Técnica de Google Admite como Limitaciones
La ficha técnica del modelo Gemini 3.5 Audio publicada por Google DeepMind documenta limitaciones conocidas específicas de Gemini 3.5 Live Translate. Citando la ficha directamente:
Detección de idioma
"La detección de idioma puede tener dificultades con acentos no nativos, idiomas similares o cambios rápidos de idioma". Implicación práctica: si un hablante tiene un acento fuerte, o el idioma de origen está cerca de un idioma relacionado (portugués vs. español, noruego vs. sueco), o la conversación cambia idiomas rápidamente, el detector puede elegir el idioma de origen incorrecto y traducir en consecuencia.
Consistencia de voz en sesiones multi-hablante
"Las voces pueden ser inconsistentes, y las voces pueden cambiar después de pausas largas, cambiar de género, o quedarse atascadas en una voz durante sesiones rápidas multi-hablante". Esta es la limitación más prácticamente significativa para muchos casos de uso. En una reunión con varios hablantes tomando turnos rápidos, el modelo puede producir toda la salida traducida en una voz — perdiendo la atribución de hablante en la que los oyentes confían para seguir la conversación.
Filtrado de ruido
"Diseñado para filtrar ruido de fondo, pero no todo el audio de fondo puede ser ignorado". Los entornos del mundo real aún se filtrarán bajo algunas condiciones.
Restricciones del modo de traducción (API de desarrollador)
Según la cobertura de lanzamiento citando la documentación de desarrollador de Google, "la entrada de texto no está soportada en modo de traducción" y el modelo "abandona el uso de herramientas e instrucciones del sistema en este modo". Para desarrolladores, la llamada API de traducción es una superficie restringida — no puedes enviar texto, no puedes usar el ecosistema de herramientas Gemini más amplio, y no puedes inyectar prompts del sistema. Traducción entra, traducción sale.
5. 5. Mediciones Independientes del Benchmark LiveLingo 2026
LiveLingo Research evaluó Gemini 3.5 Live Translate en su día de lanzamiento (9 de junio de 2026) contra el mismo protocolo usado para el benchmark original de Google Cloud STT v2 + Translation v3, Azure Speech Translation, y Whisper-large + GPT-4o-mini. El addendum completo está publicado en livelingo.io/research/benchmark-2026#comprehension-gemini-live; los números principales están abajo.
Compuesto de fidelidad de comprensión: 4.93 / 5 a través de 120 emisiones y cuatro pares de idiomas (en→es, en→zh-CN, en→ja, en→de). Este es el resultado más fuerte entre los cuatro sistemas competidores en el benchmark; el siguiente puntaje más cercano es 4.77 (Google Cloud Translation v3).
Latencia de primer audio: mediana 2,947 ms desde el inicio del habla hasta el primer audio traducido (p10–p90: 2,859–3,104 ms). Este es un retraso constante de ~3 segundos al hablar, consistente con el encuadre de Google de "unos pocos segundos atrás".
La salida es solo habla traducida. La API no tiene modo de texto en tiempo real y no tiene atribución por hablante. Las transcripciones de texto están disponibles como complemento de la salida hablada. La salida hablada no puede revisarse después de ser emitida.
Audio con alternancia de código. En un clip de noticias en mandarín que cambia a entrevistas callejeras en inglés a los 86 segundos, el benchmark de LiveLingo registró que la salida de la traducción se detiene en el cambio en cada ejecución: el habla que ya está en el idioma de salida no se traduce ni se transcribe, por lo que los últimos 34 segundos de contenido (~28% del clip) desaparecen silenciosamente para el oyente sin que se muestre ningún error. gpt-realtime-translate de OpenAI muestra el mismo comportamiento en el mismo clip, y OpenAI documenta que omitir el habla en el idioma de salida es intencional; es una limitación estructural de los traductores de voz a voz actuales en audio de idiomas mezclados.
Inversión factual en sintaxis de resolución tardía. En un clip de discurso empresarial en mandarín, una oración describiendo un aumento de ventas del 15% se renderizó en inglés como un objetivo de aumentar las ventas en 15%. Esta es la clase de error que produce el compromiso de audio irreversible a mitad de oración cuando el idioma de origen pospone el elemento portador de significado (la polaridad, la referencia temporal, el sujeto) hasta tarde en la oración.
Estas son mediciones independientes, no los números propios de Google; la metodología y los datos sin procesar por emisión están en el addendum publicado.
6. 6. Cómo Acceder a Gemini 3.5 Live Translate
Consumidor — Aplicación Google Translate
Actualiza la aplicación Google Translate a su última versión en Android o iOS. El modo Live Translate se está desplegando globalmente desde el 9 de junio de 2026 — la disponibilidad depende del cronograma de despliegue de la tienda en tu región. En Android, un nuevo "modo de escucha" te permite escuchar habla traducida directamente a través del auricular de tu dispositivo.
Desarrollador — API Gemini Live + Google AI Studio
El modelo está disponible en vista previa pública a través de la API Gemini Live y a través de Google AI Studio. Según la cobertura de lanzamiento, las restricciones de integración son específicas: solo entrada de audio (sin entrada de texto en modo de traducción), sin uso de herramientas o instrucciones del sistema, entrada PCM de 16 bits sin procesar de 16 kHz mono fragmentada a 100 ms, salida PCM de 24 kHz. Consulta Google AI Studio para cuotas y precios actuales.
Empresa — Google Meet
Gemini 3.5 Live Translate está en vista previa privada para clientes selectos de Google Workspace desde el 9 de junio de 2026. Donde está habilitado, expande la cobertura de traducción de Meet de 5 idiomas a 70+ idiomas y soporta 2,000+ combinaciones de origen/destino dentro de una sola reunión. La disponibilidad es gradual, no universal.
7. 7. Cuándo Usar Gemini 3.5 — y Cuándo Otra Herramienta Encaja Mejor
Cuándo Gemini 3.5 Live Translate es la elección correcta
- Quieres habla traducida, no texto traducido. La salida de voz natural es la mayor ventaja del producto.
- Ya estás en la aplicación Google Translate o Google Meet. La integración es de costo cero para descubrir y usar.
- Tus conversaciones son uno a uno, o tienen turnos claros con pausas entre hablantes. Las limitaciones de consistencia de voz que revela la ficha técnica de Google son más débiles en estos contextos.
- Estás construyendo una aplicación de desarrollador donde simplificar la cadena STT → MT → TTS en una sola API importa más que el control fino sobre cada etapa.
- Puedes vivir sin atribución de hablante en la salida de audio, y sin transcripciones de texto en tiempo real.
Cuándo podrías preferir una herramienta diferente
- Necesitas texto en tiempo real junto con o en lugar de audio. El texto en tiempo real es lo que la mayoría de interfaces de producción muestran en pantalla durante subtitulado en vivo, traducción de conferencias y escenarios de accesibilidad. El texto de Gemini 3.5 Live Translate es solo complementario.
- Necesitas atribución por hablante en la salida traducida. La revelación de la ficha técnica de "puede quedarse atascado en una voz durante sesiones rápidas multi-hablante" hace esto un riesgo real para reuniones.
- Traduces conversaciones donde la estabilidad importa más que la expresividad. La salida de audio no puede revisarse a mitad de emisión, así que en idiomas con sintaxis de resolución tardía (polaridad en mandarín al final de la oración, verbo en japonés al final de la oración), un compromiso temprano puede invertir el significado. El addendum del benchmark documenta un caso así.
- Necesitas llamadas telefónicas traducidas — marcar un número PSTN con traducción ejecutándose en la línea. La API Gemini Live es un bloque de construcción para desarrolladores, no un proveedor de llamadas telefónicas.
Una concesión honesta. LiveLingo, el producto que publica esta guía, encaja en la segunda columna en la mayoría de estas dimensiones: salida de texto + audio en tiempo real, atribución por hablante, compromiso cerrado monótono para que las traducciones mostradas nunca se retracten, llamadas telefónicas salientes traducidas. La salida de audio de LiveLingo, sin embargo, usa el motor de texto a voz predeterminado de la plataforma anfitriona (iOS nativo en dispositivos Apple), que suena menos natural que la voz generada de Gemini 3.5 Live Translate. Esa es una ventaja real que Google ha enviado hoy. Compara especificaciones lado a lado en livelingo.io/compare/google-translate, o números de benchmark medidos en livelingo.io/research/benchmark-2026.
8. 8. Preguntas Frecuentes
¿Qué es Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate es un modelo de traducción de voz a voz en tiempo real lanzado por Google el 9 de junio de 2026. Está construido sobre Gemini 3 Pro, genera audio traducido que preserva la entonación, el ritmo y el tono del hablante, y detecta automáticamente 70+ idiomas. Está disponible para desarrolladores a través de la API Gemini Live y Google AI Studio (vista previa pública), para consumidores a través de la aplicación Google Translate en Android e iOS, y para clientes selectos de Google Workspace a través de Google Meet (vista previa privada).
¿Qué idiomas soporta Gemini 3.5 Live Translate?
Más de 70 idiomas, detectados automáticamente. En Google Meet específicamente, esto expande la cobertura previa de 5 idiomas a 70+ idiomas y soporta más de 2,000 combinaciones de origen/destino dentro de una sola reunión.
¿Cuánto cuesta Gemini 3.5 Live Translate?
Para consumidores, la aplicación Google Translate es gratuita. El acceso para desarrolladores a través de la API Gemini Live y Google AI Studio tiene precio según las tarifas API estándar de Google — consulta Google AI Studio para precios actuales. El acceso empresarial a través de Google Meet está limitado a clientes selectos de Google Workspace en vista previa privada desde el 9 de junio de 2026.
¿Cómo maneja Gemini 3.5 Live Translate múltiples hablantes?
Según la ficha técnica del modelo Gemini 3.5 Audio publicada por Google DeepMind: "Las voces pueden ser inconsistentes, y las voces pueden cambiar después de pausas largas, cambiar de género, o quedarse atascadas en una voz durante sesiones rápidas multi-hablante". Prácticamente: conversaciones uno a uno y discusiones de turnos con pausas claras funcionan bien; escenarios rápidos multi-hablante son una debilidad documentada. No hay atribución por hablante en la salida de audio traducida.
¿Gemini 3.5 Live Translate produce texto?
La salida principal es habla traducida. Las transcripciones de texto están disponibles, pero solo como complemento de la salida hablada — no hay modo de texto en tiempo real, y la API de modo de traducción no acepta entrada de texto.
¿Cuál es la latencia medida de Gemini 3.5 Live Translate?
Google describe el sistema como manteniéndose "unos pocos segundos atrás del hablante". La medición independiente por LiveLingo Research en el día de lanzamiento registró una latencia mediana de primer audio de 2,947 ms (p10–p90: 2,859–3,104 ms) a través de 120 emisiones de prueba — un retraso constante de aproximadamente 3 segundos al hablar. Fuente: livelingo.io/research/benchmark-2026.
¿Cuándo fue lanzado Gemini 3.5 Live Translate?
Google anunció y comenzó a desplegar Gemini 3.5 Live Translate el 9 de junio de 2026, a través de la API Gemini Live y Google AI Studio (vista previa pública para desarrolladores), la aplicación Google Translate en Android e iOS (despliegue global comenzando ese día), y Google Meet (vista previa privada para clientes selectos de Workspace).
9. 9. Fuentes
- Google. Traducción de voz fluida y natural con Gemini 3.5 Live Translate. Blog de Google, 9 de junio de 2026. blog.google
- Google DeepMind. Gemini 3.5 Audio (Live Translate) — Ficha Técnica del Modelo. deepmind.google
- MarkTechPost. Google Lanza Gemini 3.5 Live Translate, un Modelo de Audio de Voz a Voz en Tiempo Real que Cubre 70+ Idiomas a través de Meet, Translate y la API Live, 9 de junio de 2026. marktechpost.com
- LiveLingo Research. Benchmark de Traducción de Voz en Tiempo Real 2026 — Addendum Gemini 3.5 Live Translate, 9 de junio de 2026. livelingo.io/research/benchmark-2026