Gemini 3.5 Live Translate: Recursos, Limites e Como Funciona (2026)

Profissionais diversos em uma videochamada multilíngue, com fala traduzida fluindo continuamente entre os participantes.

1. 1. O Que É o Gemini 3.5 Live Translate

O Gemini 3.5 Live Translate é um modelo de tradução de fala para fala em streaming que o Google anunciou em 9 de junho de 2026. Duas características o distinguem de produtos de tradução anteriores.

Primeiro, é áudio para áudio em vez do pipeline mais antigo de fala-para-texto-para-tradução-para-texto-para-fala. O modelo aceita áudio de origem transmitido em blocos de 100 milissegundos e produz fala traduzida como saída. Transcrições de texto estão disponíveis, mas apenas como um complemento da saída falada — não há modo de texto em streaming e nenhuma atribuição de falante no áudio traduzido.

Segundo, a voz gerada é projetada para preservar a prosódia do falante. O anúncio do Google descreve uma saída que mantém a entonação, ritmo e tom do falante. Na prática, isso produz uma voz traduzida que soa substancialmente mais natural que um mecanismo genérico de texto para fala lendo uma tradução em voz alta — uma vantagem real sobre sistemas de tradução de fala cuja saída de áudio passa por uma camada TTS padrão.

O modelo é construído sobre o Gemini 3 Pro. De acordo com o cartão do modelo Gemini 3.5 Audio publicado pelo Google DeepMind, ele aceita entrada de áudio com até uma janela de contexto de 128K tokens e produz saída de áudio + texto de até 64K tokens. Detecta automaticamente mais de 70 idiomas, incluindo mudanças rápidas de idioma entre falantes, embora essa detecção tenha fraquezas documentadas (cobertas na Seção 4).

O lançamento abrange três superfícies de produto em paralelo: acesso para desenvolvedores via API Gemini Live e Google AI Studio (visualização pública a partir de 9 de junho de 2026); acesso do consumidor através do app Google Tradutor no Android e iOS, sendo implementado globalmente a partir daquele dia, com um novo "modo de escuta" no Android; e acesso empresarial através do Google Meet em visualização privada para clientes selecionados do Google Workspace, onde expande a cobertura de tradução do Meet de 5 idiomas para 70+ e suporta mais de 2.000 combinações origem/destino dentro de uma única reunião.

2. 2. Como Funciona: Arquitetura Áudio-para-Áudio e Preservação de Prosódia

Três escolhas arquitetônicas distinguem o Gemini 3.5 Live Translate de sistemas de tradução em streaming anteriores.

Fala-para-fala, não fala-para-texto-para-fala

Pipelines tradicionais executam áudio através de um modelo de fala para texto em streaming, alimentam a transcrição para um modelo de tradução automática, depois sintetizam a tradução através de um modelo separado de texto para fala. Cada estágio adiciona latência e acumula erros. O Gemini 3.5 Live Translate incorpora essas etapas em um modelo de áudio. A contrapartida: a saída é áudio permanente, não texto editável — uma vez que uma palavra é falada, não pode ser revisada no meio da expressão.

Streaming contínuo, não baseado em turnos

O anúncio do Google enquadra o modelo como um que "equilibra a compensação entre esperar por contexto para melhorar a qualidade e traduzir imediatamente para manter sincronia com o falante". Produtos de consumo anteriores como o modo Conversa anterior do Google Tradutor eram baseados em turnos: toque, fale, espere o sistema finalizar e emitir a tradução, depois deixe a outra parte tocar. O Gemini 3.5 Live Translate emite fala traduzida continuamente enquanto o falante de origem ainda está falando, com o Google descrevendo um atraso de "alguns segundos".

Transferência de prosódia

O modelo é projetado para carregar as características vocais do falante de origem — entonação, ritmo, ênfase, tom — para o áudio traduzido. Esta é a principal razão técnica pela qual a saída soa natural em vez de robótica. É também a fonte das limitações de consistência de voz que o cartão de modelo do Google divulga (Seção 4).

Na superfície do desenvolvedor, cada sessão usa áudio PCM de 16 bits bruto a 16 kHz mono como entrada e produz áudio PCM mono de 24 kHz como saída, enviado em blocos de 100 milissegundos. Todo áudio gerado carrega a marca d'água SynthID do Google — uma assinatura imperceptível tecida na forma de onda que permite que sistemas downstream identifiquem o áudio como gerado por máquina.

Smartphone exibindo uma interface de tradução de voz em streaming com formas de onda de áudio e seleção de idioma.

3. 3. Onde o Gemini 3.5 Live Translate É Mais Forte

Cinco pontos fortes do produto aparecem imediatamente ao comparar o Gemini 3.5 Live Translate com seus pares.

Fala traduzida com som natural. A voz que preserva prosódia é a vantagem mais clara sobre sistemas de tradução de fala cuja saída de áudio passa por um mecanismo TTS genérico. Se você já usou um app de tradução por voz cuja saída de áudio soa como um narrador monótono lendo uma sequência de palavras, o contraste é imediato. O Gemini 3.5 Live Translate é materialmente melhor aqui, e a diferença é audível na primeira frase.

Simplicidade áudio-para-áudio. Construir uma aplicação de tradução de fala tradicionalmente significava encadear um modelo STT em streaming (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), um modelo de tradução e um mecanismo TTS — e gerenciar a semântica de emissão parcial de cada um. O Gemini 3.5 Live Translate substitui essa cadeia por uma chamada de API, simplificando tanto o código da aplicação quanto a superfície de falha.

Detecção automática de idioma em escala. 70+ idiomas detectados automaticamente, sem necessidade do usuário definir um par de idiomas antecipadamente. O posicionamento do Google enfatiza casos de uso como reuniões com múltiplas partes onde falantes mudam de idioma no meio da conversa.

Distribuição. Construído diretamente no app Google Tradutor para consumidores e no Google Meet. Para usuários finais, o custo de instalação e descoberta é quase zero — eles já têm o app. Para clientes do Meet, a tradução chega como um botão de recurso dentro de um fluxo de trabalho que já está em uso.

Saída com marca d'água. A marca d'água SynthID torna a fala gerada identificável como gerada por IA para casos de uso de conformidade downstream, o que é útil em indústrias regulamentadas que precisam rastrear conteúdo gerado por IA.

4. 4. O Que o Próprio Cartão de Modelo do Google Admite Como Limitações

O cartão do modelo Gemini 3.5 Audio publicado pelo Google DeepMind documenta limitações conhecidas específicas do Gemini 3.5 Live Translate. Citando o cartão diretamente:

Detecção de idioma

"A detecção de idioma pode ter dificuldades com sotaques não nativos, idiomas similares ou mudanças rápidas de idioma." Implicação prática: se um falante tem um sotaque forte, ou o idioma de origem é próximo a um idioma relacionado (português vs. espanhol, norueguês vs. sueco), ou a conversa muda de idiomas rapidamente, o detector pode escolher o idioma de origem errado e traduzir de acordo.

Consistência de voz em sessões com múltiplos falantes

"Vozes podem ser inconsistentes, e vozes podem mudar após pausas longas, mudar de gênero ou ficar presas em uma voz durante sessões rápidas com múltiplos falantes." Esta é a limitação mais praticamente significativa para muitos casos de uso. Em uma reunião com vários falantes fazendo turnos rápidos, o modelo pode produzir toda saída traduzida em uma voz — perdendo a atribuição de falante que os ouvintes dependem para acompanhar a conversa.

Filtragem de ruído

"Projetado para filtrar ruído de fundo, mas nem todo áudio de fundo pode ser ignorado." Ambientes do mundo real ainda vão vazar sob algumas condições.

Restrições do modo de tradução (API do desenvolvedor)

De acordo com a cobertura de lançamento citando a documentação do desenvolvedor do Google, "entrada de texto não é suportada no modo de tradução" e o modelo "abandona uso de ferramentas e instruções do sistema neste modo". Para desenvolvedores, a chamada da API de tradução é uma superfície restrita — você não pode enviar texto, não pode usar o ecossistema mais amplo de ferramentas Gemini, e não pode injetar prompts do sistema. Tradução entra, tradução sai.

5. 5. Medições Independentes do Benchmark LiveLingo 2026

A LiveLingo Research avaliou o Gemini 3.5 Live Translate no seu dia de lançamento (9 de junho de 2026) contra o mesmo protocolo usado para o benchmark original do Google Cloud STT v2 + Translation v3, Azure Speech Translation e Whisper-large + GPT-4o-mini. O adendo completo está publicado em livelingo.io/research/benchmark-2026#comprehension-gemini-live; os números principais estão abaixo.

Composto de fidelidade de compreensão: 4,93 / 5 através de 120 expressões e quatro pares de idiomas (en→es, en→zh-CN, en→ja, en→de). Este é o resultado mais forte entre os quatro sistemas concorrentes no benchmark; a pontuação mais próxima é 4,77 (Google Cloud Translation v3).

Latência do primeiro áudio: mediana de 2.947 ms do início da fala ao primeiro áudio traduzido (p10–p90: 2.859–3.104 ms). Este é um atraso constante de ~3 segundos na fala, consistente com o enquadramento do Google de "alguns segundos atrás".

Saída é apenas fala traduzida. A API não tem modo de texto em streaming e nenhuma atribuição por falante. Transcrições de texto estão disponíveis como complemento da saída falada. Saída falada não pode ser revisada após ser emitida.

Áudio com alternância de código. Em um clipe de notícias em mandarim que muda para entrevistas de rua em inglês aos 86 segundos, o benchmark LiveLingo registrou que a saída da tradução para no momento da mudança em cada execução: a fala já no idioma de saída não é traduzida nem transcrita, de modo que os 34 segundos finais de conteúdo (~28% do clipe) desaparecem silenciosamente para o ouvinte sem que nenhum erro seja exibido. O gpt-realtime-translate da OpenAI mostra o mesmo comportamento no mesmo clipe, e a OpenAI documenta que pular a fala no idioma de saída é intencional; é um limite estrutural dos atuais tradutores de fala para fala em áudio de idiomas mistos.

Inversão factual em sintaxe de resolução tardia. Em um clipe de discurso de negócios em mandarim, uma frase descrevendo um aumento de vendas de 15% foi renderizada em inglês como uma meta de aumentar vendas em 15%. Esta é a classe de erro que o compromisso irreversível de áudio no meio da frase produz quando o idioma de origem adia o elemento portador de significado (a polaridade, a referência temporal, o sujeito) até tarde na frase.

Estas são medições independentes, não os próprios números do Google; metodologia e dados brutos por expressão estão no adendo publicado.

6. 6. Como Acessar o Gemini 3.5 Live Translate

Consumidor — App Google Tradutor

Atualize o app Google Tradutor para sua versão mais recente no Android ou iOS. O modo Live Translate está sendo implementado globalmente a partir de 9 de junho de 2026 — a disponibilidade depende do cronograma de implementação da loja na sua região. No Android, um novo "modo de escuta" permite ouvir fala traduzida diretamente através do fone de ouvido do seu dispositivo.

Desenvolvedor — API Gemini Live + Google AI Studio

O modelo está disponível em visualização pública através da API Gemini Live e através do Google AI Studio. Conforme a cobertura de lançamento, as restrições de integração são específicas: apenas entrada de áudio (sem entrada de texto no modo de tradução), sem uso de ferramentas ou instruções do sistema, entrada PCM de 16 bits bruta 16 kHz mono fragmentada em 100 ms, saída PCM de 24 kHz. Consulte o Google AI Studio para cotas e preços atuais.

Empresarial — Google Meet

O Gemini 3.5 Live Translate está em visualização privada para clientes selecionados do Google Workspace a partir de 9 de junho de 2026. Onde habilitado, expande a cobertura de tradução do Meet de 5 idiomas para 70+ idiomas e suporta 2.000+ combinações origem/destino dentro de uma única reunião. A disponibilidade é gradual, não universal.

7. 7. Quando Usar o Gemini 3.5 — e Quando Outra Ferramenta Se Encaixa Melhor

Quando o Gemini 3.5 Live Translate é a escolha certa

Você quer fala traduzida, não texto traduzido. A saída de voz natural é a maior vantagem do produto.
Você já está no app Google Tradutor ou Google Meet. A integração tem custo zero para descobrir e usar.
Suas conversas são um-para-um, ou têm alternância clara de turnos com pausas entre falantes. As limitações de consistência de voz que o cartão de modelo do Google divulga são mais fracas nesses contextos.
Você está construindo uma aplicação de desenvolvedor onde simplificar a cadeia STT → MT → TTS em uma única API importa mais que controle refinado sobre cada estágio.
Você pode viver sem atribuição de falante na saída de áudio, e sem transcrições de texto em streaming.

Quando você pode preferir uma ferramenta diferente

Você precisa de texto em streaming junto com ou em vez de áudio. Texto em streaming é o que a maioria das interfaces de produção mostra na tela durante legendagem ao vivo, tradução de conferência e cenários de acessibilidade. O texto do Gemini 3.5 Live Translate é apenas complementar.
Você precisa de atribuição por falante na saída traduzida. A divulgação do cartão de modelo de "pode ficar presa em uma voz durante sessões rápidas com múltiplos falantes" torna isso um risco real para reuniões.
Você traduz conversas onde estabilidade importa mais que expressividade. Saída de áudio não pode ser revisada no meio da expressão, então em idiomas com sintaxe de resolução tardia (polaridade do mandarim no final da frase, verbo japonês no final da frase), um compromisso precoce pode inverter o significado. O adendo do benchmark documenta um caso assim.
Você precisa de chamadas telefônicas traduzidas — discando um número PSTN com tradução rodando na linha. A API Gemini Live é um bloco de construção para desenvolvedores, não um provedor de chamadas telefônicas.

Uma concessão honesta. O LiveLingo, o produto que publica este guia, se encaixa na segunda coluna na maioria dessas dimensões: saída de texto + áudio em streaming, atribuição por falante, compromisso fechado monotônico para que traduções exibidas nunca sejam retraídas, chamadas telefônicas de saída traduzidas. A saída de áudio do LiveLingo, no entanto, usa o mecanismo de texto para fala padrão da plataforma hospedeira (iOS nativo em dispositivos Apple), que soa menos natural que a voz gerada do Gemini 3.5 Live Translate. Essa é uma vantagem real que o Google entregou hoje. Compare especificações lado a lado em livelingo.io/compare/google-translate, ou números de benchmark medidos em livelingo.io/research/benchmark-2026.

8. 8. Perguntas Frequentes

O que é o Gemini 3.5 Live Translate?

O Gemini 3.5 Live Translate é um modelo de tradução de fala para fala em streaming lançado pelo Google em 9 de junho de 2026. É construído sobre o Gemini 3 Pro, gera áudio traduzido que preserva a entonação, ritmo e tom do falante, e detecta automaticamente 70+ idiomas. Está disponível para desenvolvedores via API Gemini Live e Google AI Studio (visualização pública), para consumidores via app Google Tradutor no Android e iOS, e para clientes selecionados do Google Workspace via Google Meet (visualização privada).

Quais idiomas o Gemini 3.5 Live Translate suporta?

Mais de 70 idiomas, detectados automaticamente. No Google Meet especificamente, isso expande a cobertura anterior de 5 idiomas para 70+ idiomas e suporta mais de 2.000 combinações origem/destino dentro de uma única reunião.

Quanto custa o Gemini 3.5 Live Translate?

Para consumidores, o app Google Tradutor é gratuito. Acesso para desenvolvedores via API Gemini Live e Google AI Studio é precificado conforme as taxas padrão de API do Google — verifique o Google AI Studio para preços atuais. Acesso empresarial via Google Meet é restrito a clientes selecionados do Google Workspace em visualização privada a partir de 9 de junho de 2026.

Como o Gemini 3.5 Live Translate lida com múltiplos falantes?

Conforme o cartão do modelo Gemini 3.5 Audio publicado pelo Google DeepMind: "Vozes podem ser inconsistentes, e vozes podem mudar após pausas longas, mudar de gênero ou ficar presas em uma voz durante sessões rápidas com múltiplos falantes." Praticamente: conversas um-para-um e discussões com alternância de turnos com pausas claras funcionam bem; cenários rápidos com múltiplos falantes são uma fraqueza documentada. Não há atribuição por falante na saída de áudio traduzida.

O Gemini 3.5 Live Translate produz texto?

A saída principal é fala traduzida. Transcrições de texto estão disponíveis, mas apenas como complemento da saída falada — não há modo de texto em streaming, e a API do modo de tradução não aceita entrada de texto.

Qual é a latência medida do Gemini 3.5 Live Translate?

O Google descreve o sistema como ficando "alguns segundos atrás do falante". Medição independente pela LiveLingo Research no dia de lançamento registrou uma latência mediana do primeiro áudio de 2.947 ms (p10–p90: 2.859–3.104 ms) através de 120 expressões de teste — um atraso constante de aproximadamente 3 segundos na fala. Fonte: livelingo.io/research/benchmark-2026.

Quando o Gemini 3.5 Live Translate foi lançado?

O Google anunciou e começou a implementar o Gemini 3.5 Live Translate em 9 de junho de 2026, através da API Gemini Live e Google AI Studio (visualização pública para desenvolvedores), o app Google Tradutor no Android e iOS (implementação global começando naquele dia), e Google Meet (visualização privada para clientes selecionados do Workspace).

9. 9. Fontes

Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Blog do Google, 9 de junho de 2026. blog.google
Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, 9 de junho de 2026. marktechpost.com
LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, 9 de junho de 2026. livelingo.io/research/benchmark-2026