LiveLingoLiveLingoTry free

Tradução ao Vivo OpenAI (2026): ChatGPT Voice, gpt-realtime-translate e Whisper+GPT Comparados

A OpenAI oferece tradução de fala ao vivo em três interfaces desde junho de 2026: o modo de tradução ao vivo do ChatGPT Voice para assinantes pagos, o modelo dedicado `gpt-realtime-translate` na API Realtime para desenvolvedores, e o pipeline DIY Whisper + GPT-4o-mini que continua sendo a rota mais flexível. Este guia descreve cada interface, os trade-offs entre elas, o que a própria documentação da OpenAI revela como limitações, e os números medidos independentemente de um benchmark reproduzível publicado.

1. 1. O que a OpenAI Oferece para Tradução ao Vivo em 2026

Três interfaces distintas estão disponíveis desde junho de 2026:

ChatGPT Voice — tradução ao vivo (consumidor). A tradução ao vivo está integrada ao modo Voice do ChatGPT. O usuário toca no ícone Voice no compositor de mensagens do app ChatGPT, pede ao assistente para traduzir entre idiomas, e o modelo continua traduzindo durante toda a conversa até ser instruído a parar ou trocar. Isso requer uma assinatura paga do ChatGPT — Plus, Teams, Enterprise ou Edu (página de preços do consumidor OpenAI; Plus custa ~$20/mês). Não há acesso gratuito à tradução ao vivo do consumidor em nossas verificações de 10 de junho de 2026. A interface é conversacional em vez de uma UI dedicada de tradutor; não há seletor de par de idiomas origem/destino, nem transcrição em duas colunas origem-e-traduzida, nem discagem de chamadas.

`gpt-realtime-translate` (modelo de API dedicado). Em 7 de maio de 2026, a OpenAI lançou um modelo de tradução fala-para-fala streaming construído especificamente dentro da API Realtime. Segundo o anúncio da OpenAI, o modelo foi "treinado em milhares de horas de áudio de intérpretes profissionais" e é configurado para "permanecer apenas na tradução e aguardar contexto suficiente antes de produzir fala." Suporta mais de 70 idiomas de entrada traduzidos para 13 idiomas de saída e custa $0,034 por minuto de áudio de entrada (preços da API OpenAI). Parceiros de lançamento documentados nomeados no anúncio da OpenAI: Deutsche Telekom (suporte ao cliente multilíngue) e Vimeo (tradução em tempo real de vídeos educacionais de produtos).

Whisper + GPT-4o-mini (pipeline DIY). O caminho original para desenvolvedores continua disponível. O Whisper-large lida com fala-para-texto (99 idiomas segundo o guia de fala-para-texto da OpenAI; $0,006/min de áudio na página de preços da API OpenAI); o GPT-4o-mini lida com a tradução (preços por token, mesma fonte). Combinados, eles suportam pares de idiomas arbitrários — não o teto de 13 saídas do `gpt-realtime-translate` — e dão ao desenvolvedor controle total sobre chunking, prompting, manuseio de glossário e formato de saída. O custo é a engenharia: a API do Whisper não segmenta fala contínua em limites de enunciado, então o desenvolvedor fornece detecção de atividade de voz (VAD), lógica de endpoint, filtragem de alucinações, UI de streaming e telefonia.

2. 2. ChatGPT Voice — Modo de Tradução ao Vivo (Consumidor)

O ChatGPT Voice com tradução ao vivo roda dentro do app consumidor ChatGPT no iOS, Android e web. O usuário abre uma sessão Voice e dá ao assistente uma instrução de tradução como "traduza entre inglês e japonês." O modelo então traduz os enunciados de cada falante para o idioma alvo solicitado continuamente, através de turnos, até o usuário dizer para parar, trocar idiomas ou encerrar a sessão.

O acesso requer uma assinatura paga do ChatGPT. O modo Voice atualizado com tradução ao vivo está disponível para usuários ChatGPT Plus (~$20/mês segundo a página de preços do consumidor OpenAI), Teams, Enterprise e Edu; o acesso é iniciado via ícone Voice no compositor de mensagens (conforme documentado em chatgpt.com/features/voice e confirmado pela cobertura de lançamento do Tom's Guide e 9to5Mac). O recurso de tradução ao vivo não aparece no nível gratuito em nossas verificações de 10 de junho de 2026.

O que a interface oferece, e o que não oferece. A experiência do usuário é uma sessão Voice conversacional — natural para um intercâmbio cross-linguístico um-a-um ou uma pequena conversa presencial. Não inclui uma UI dedicada de tradutor com seletor de idioma origem/destino, um par de transcrição origem-e-traduzida em duas colunas que você pode ler enquanto escuta, exportação de sessão, resumo de reunião ou discagem de chamadas telefônicas. O modelo lida com atividade de voz e alternância de turnos internamente; o usuário não tem controle explícito sobre timing de endpoint, glossário ou estilo de prompt.

Modelo subjacente e comportamento. A tradução ao vivo do ChatGPT Voice é construída na família de modelos Realtime da OpenAI. A cobertura de lançamento do release de 7 de maio de 2026 (Tom's Guide, 9to5Mac, Slator) indica que a interface Voice do consumidor usa a mesma infraestrutura Realtime que hospeda o `gpt-realtime-translate`, com detecção de atividade de voz na camada do app consumidor, estado de conversa e renderização de UI por cima. A documentação pública de modelos da OpenAI não descreve um cartão de modelo separado para a variante de tradução Voice do consumidor em 10 de junho de 2026.

3. 3. gpt-realtime-translate — O Modelo de API Dedicado

`gpt-realtime-translate` é o primeiro modelo de tradução construído especificamente pela OpenAI, lançado em 7 de maio de 2026 dentro da API Realtime. É distinto da rota DIY Whisper + GPT-4o-mini no sentido de que a transformação streaming fala-para-fala acontece em um único modelo em vez de duas chamadas de API com prompts independentes.

Especificações. Segundo o cookbook de desenvolvedores da OpenAI: mais de 70 idiomas de entrada auto-detectados, 13 idiomas de saída. Preço de $0,034 por minuto de áudio de entrada. Retorna áudio traduzido mais transcrições de texto tanto da fala origem quanto da saída traduzida — uma interface de transcrição que o modo ChatGPT Voice do consumidor não expõe. Sem atribuição de falante e sem seleção de voz. A saída falada não pode ser revisada depois de emitida.

Treinamento e comportamento. A OpenAI afirma que o modelo foi "treinado em milhares de horas de áudio de intérpretes profissionais, o que o ajuda a permanecer apenas na tradução e aguardar contexto suficiente antes de produzir fala." Na própria avaliação da OpenAI, o modelo entregou 12,5% menos Taxa de Erro de Palavras que qualquer outro modelo testado em hindi, tâmil e télugu — a força documentada em idiomas índicos do lançamento.

Restrições do modo de tradução. Segundo o cookbook da OpenAI, a chamada de API do modo de tradução é uma interface restrita comparada ao uso geral da API Realtime. Entrada de texto não é suportada no modo de tradução, e uso de ferramentas e instruções de sistema são desabilitados — entrada é áudio, saída é áudio mais transcrições, e o modelo se comporta como um intérprete dedicado em vez de um assistente de voz geral.

4. 4. Whisper + GPT-4o-mini — O Pipeline DIY

A rota Whisper + GPT-4o-mini continua disponível e continua sendo a escolha certa para desenvolvedores que precisam de comportamentos que o modelo de tradução dedicado não fornece: idiomas de saída arbitrários fora do teto de 13 idiomas, controle fino de prompt e glossário, estratégias de chunking customizadas, ou integração com outras capacidades da API Realtime como uso de ferramentas.

Especificações. O Whisper-large suporta 99 idiomas de entrada para fala-para-texto (guia de fala-para-texto OpenAI) a $0,006 por minuto de áudio (página de preços OpenAI). O GPT-4o-mini lida com o passo de tradução com preços por token (também na página de preços OpenAI). Os dois serviços são chamadas de rede independentes; o custo total por minuto depende do comprimento da transcrição mas é tipicamente menor que `gpt-realtime-translate` para uso com alvo em inglês, e maior esforço de engenharia.

O que o desenvolvedor fornece. Tradução de voz em tempo real de produção em cima de Whisper + GPT-4o-mini requer os seguintes componentes, nenhum dos quais a OpenAI fornece:

  • Detecção de atividade de voz (VAD). A API do Whisper fornece transcrição em chunks de áudio completos mas não segmenta fala contínua em limites de enunciado; o desenvolvedor fornece um VAD separado para decidir quando enviar cada chunk. Sem isso, não há sinal de quando um enunciado termina.
  • Lógica de endpoint. Decidir se aguardar mais áudio (menor latência, mais revisões) ou confirmar cedo (maior latência, menos revisões). O trade-off define a experiência do usuário.
  • Filtragem de alucinações. O Whisper é amplamente reportado por alucinar texto de preenchimento em inglês em clipes curtos — artefatos comuns incluem "Thanks for watching!" e "Subscribe!", atribuídos ao conteúdo do YouTube em seu corpus de treinamento; veja a discussão do GitHub openai/whisper sobre alucinações em clipes curtos. Deployments de produção requerem filtragem desses.
  • Primitivos de UI de streaming. Uma sobreposição de commit controlado para que o texto exibido não se retraia, acumulação de chunks parciais, comportamento de scroll e a exibição origem-vs-traduzida.
  • Integração de telefonia para uso em chamadas telefônicas (Twilio, Telnyx ou similar), incluindo ponte de áudio bidirecional e conformidade de divulgação de gravação de chamadas por jurisdição.
  • Monitoramento de custos + manuseio de limite de taxa. Em uso sustentado, o custo por minuto pode exceder uma assinatura fixa, e limites de taxa por conta requerem estratégias de backoff.

5. 5. Como Eles Performam em Medição Independente

O que medimos (e o que não medimos). Os números abaixo são para o endpoint bruto da API Realtime `gpt-realtime-translate`, acessado programaticamente via SDK Python, com os mesmos limites de enunciado energy-VAD aplicados uniformemente a todos os sistemas de nível API no benchmark LiveLingo. Não medimos o app consumidor ChatGPT Voice separadamente. O ChatGPT Voice é construído na mesma infraestrutura Realtime mas a interface do consumidor adiciona seu próprio VAD do lado cliente, estado de conversa, renderização de UI, e pode aplicar suavização do lado servidor à qual não temos acesso programático. Um usuário do ChatGPT Voice pode ver latência percebida diferente, drift de lag e comportamento de code-switching que os números de nível API reportam. Onde esta seção cita comportamentos específicos (drift, silêncio de code-switch), trate-os como o piso de experiência do desenvolvedor no endpoint da API Realtime, não o teto do consumidor ChatGPT-Voice. Os números do pipeline DIY Whisper + GPT-4o-mini são similarmente de nível API — eles refletem o que um desenvolvedor experimenta depois de montar um pipeline baseline ingênuo, não um sistema de produção ajustado à mão.

Reprodutibilidade. Cada número nesta seção reproduz dos mesmos três clipes de áudio de domínio público VOA de 120 segundos, o mesmo endpoint da API Realtime, e o mesmo harness Python usado para o benchmark original de quatro sistemas. O áudio (`audio.zip`), JSON bruto por enunciado (`openai-realtime-results.json`), e metodologia são publicados em livelingo.io/research/benchmark-2026.

gpt-realtime-translate — comportamento medido

Primeiro áudio mais rápido de qualquer sistema testado. Mediana de 711 ms do início da fala ao primeiro áudio traduzido através de todas as 120 sessões avaliadas (p10–p90: 485–1.012 ms). Para contexto, Gemini 3.5 Live Translate mediu ~2,9 s na mesma métrica — `gpt-realtime-translate` é aproximadamente quatro vezes mais rápido para primeira saída. Velocidade é a força genuína deste modelo.

Composto de fidelidade de compreensão: 4,53 / 5. Pontuado por dois juízes LLM de fronteira independentes (GPT-4o, Gemini 2.5 Flash) usando a mesma rubrica e prompts de juiz do benchmark original de quatro sistemas, através de 120 enunciados e quatro pares de idiomas (en→es, en→zh-CN, en→ja, en→de). Esta foi a pontuação mais baixa dos seis sistemas medidos. Cara-a-cara contra LiveLingo no nível celular: 4 vitórias, 80 empates, 36 derrotas. Classes de erro recorrentes: frases estranhas anexadas no início dos enunciados, inversões de significado (ex: "I was stressed about work" renderizado como um desejo de estar estressado), e nomes próprios substituídos por substantivos comuns.

Comparação de seis sistemas no benchmark LiveLingo 2026 (120 enunciados, quatro pares de idiomas, composto de 2 juízes). Dados brutos: livelingo.io/research/benchmark-2026.

SistemaCompreensão (0–5)Latência primeiro áudio / TTFInterface de saída
LiveLingo4,961.518 ms (transcrição confirmada)Texto + áudio streaming
Gemini 3.5 Live Translate4,93~3.100 ms (TTF)Áudio (texto auxiliar)
Google Cloud STT v2 + Translate v34,77~26.736 ms (Transcrição Final)Transcrição
Azure Speech Translation4,65~4.755 ms (Transcrição Final)Transcrição
Whisper + GPT-4o-mini (DIY)4,632.720 ms (Transcrição Final)Transcrição
**OpenAI gpt-realtime-translate****4,53****~3.800 ms (TTF)****Áudio + transcrição**

Drift de lag em fala contínua. Velocidade para primeira saída é excelente, mas em áudio estendido a voz traduzida fica progressivamente atrás do falante conforme backlog não traduzido se acumula. Medindo do fim de cada enunciado origem até a chegada da fala traduzida para aquele enunciado: mediana de 3,8 s, derivando até 20,3 s atrás no clipe VOA denso pt→en. Este é o trade-off que a arquitetura áudio-para-áudio cria — saída de fala é naturalmente limitada pela taxa de fala da voz sintetizada, então o modelo não pode "alcançar" mais rápido que o ritmo humano.

Falha de fala com code-switching. Segundo a documentação de desenvolvedor da OpenAI, o modelo pode pular fala que já está no idioma de saída. No clipe VOA zh→en no benchmark LiveLingo, isso apareceu como silêncio na marca de 86 segundos, quando a origem mudou para fala em inglês — o modelo ficou silencioso e não passou o conteúdo em inglês para a saída traduzida. Gemini 3.5 Live Translate exibe a mesma lacuna no mesmo clipe; este é um problema de classe para modelos de tradução dedicados áudio-para-áudio (veja destaque abaixo). Pipelines que expõem uma transcrição de texto streaming podem passar conteúdo com code-switch para a transcrição exibida em vez de descartá-lo.

Interfaces de saída. Áudio traduzido mais transcrições de texto tanto da origem quanto da saída — mais próximo de uma interface de produto transcript-first que a API apenas-áudio do Gemini 3.5 Live Translate. Sem atribuição de falante. Sem seleção de voz. Saída falada não pode ser revisada depois de emitida.

Áudio-para-áudio é uma classe com limitações compartilhadas. Os comportamentos nesta seção não são únicos ao `gpt-realtime-translate`. O Gemini 3.5 Live Translate do Google, e qualquer outro modelo atual de tradução áudio-para-áudio fala-para-fala, herda a mesma classe de trade-offs: (1) drift de lag de ritmo de saída em fala contínua, porque áudio traduzido é limitado pela taxa de fala e não pode alcançar mais rápido que ritmo humano; (2) silêncio de code-switch, porque o modelo é configurado para pular fala já no idioma de saída; (3) sem atribuição de falante inline no áudio sintetizado; (4) commits irreversíveis no meio do enunciado, porque áudio falado não pode ser retraído da forma que texto exibido pode. Sistemas que expõem uma transcrição de texto streaming — incluindo a rota DIY Whisper + GPT-4o-mini da OpenAI e produtos de tradução de transcrição streaming como LiveLingo — evitam (2), (3), e (4) ao custo de overhead de latência de dois modelos ou uma modalidade de saída diferente. Trate isso como um insight de categoria, não uma crítica de um modelo.

Pipeline DIY Whisper + GPT-4o-mini — comportamento medido

Nos mesmos três clipes VOA de 120 segundos, um pipeline baseline ingênuo Whisper-large + GPT-4o-mini mediu uma Latência de Transcrição Final mediana de 2.720 ms (95% CI 1.880–3.396, n=28), e emitiu ≈22 Apagamentos Normalizados por clipe de 120 segundos (revisões de token através de chunks parciais). O composto de fidelidade de compreensão foi 4,63 / 5 através dos mesmos quatro pares de idiomas.

Notavelmente: o pipeline DIY pontuou compreensão maior que o modelo dedicado `gpt-realtime-translate` (4,63 vs 4,53). O modelo dedicado é mais rápido para primeira saída e mais fácil de integrar, mas neste benchmark o pipeline de dois modelos mais antigo lê significado da origem ligeiramente mais precisamente. As diferenças estão dentro de ~0,10 em uma escala de 5 pontos e refletem prioridades de design diferentes — velocidade e simplicidade operacional para o modelo dedicado, precisão de transcrição e controle de prompt para o pipeline.

6. 6. O que a Própria Documentação da OpenAI Revela

Declarações extraídas diretamente do anúncio de 7 de maio de 2026 da OpenAI e documentação de desenvolvedor:

  • Corpus de treinamento. "Treinado em milhares de horas de áudio de intérpretes profissionais, o que o ajuda a permanecer apenas na tradução e aguardar contexto suficiente antes de produzir fala." (Fonte: anúncio OpenAI.)
  • Cobertura de idiomas. Mais de 70 idiomas de entrada para 13 idiomas de saída. (Fonte: Cookbook OpenAI.)
  • Força em idiomas índicos. "12,5% menos Taxa de Erro de Palavras que qualquer outro modelo testado" em hindi, tâmil e télugu na própria avaliação da OpenAI. (Fonte: anúncio OpenAI.)
  • Comportamento de code-switching. A documentação da OpenAI afirma que o modelo pode pular fala já no idioma de saída — uma escolha de design que produz silêncio em áudio com code-switch.
  • Restrições de modo. No modo de tradução, entrada de texto não é suportada e uso de ferramentas mais instruções de sistema são desabilitados. A chamada do modo de tradução é uma interface restrita comparada à API Realtime geral.
  • Formato de saída (desenvolvedor). Áudio é enviado e recebido em PCM bruto com streaming em chunks. Consulte o guia da API Realtime para o formato exato e orientação de tamanho de chunk.
  • Preços. $0,034 por minuto de áudio de entrada para `gpt-realtime-translate`. $0,006 por minuto de áudio para Whisper. GPT-4o-mini por token. ChatGPT Plus é aproximadamente $20/mês e é o nível pago mínimo para acesso à tradução ao vivo ChatGPT Voice. (Preços da API OpenAI e preços do consumidor ChatGPT.)
  • Usuários de lançamento documentados. Deutsche Telekom (suporte ao cliente multilíngue) e Vimeo (tradução em tempo real de vídeos educacionais de produtos). (Fonte: anúncio OpenAI.)

7. 7. Quando Escolher Qual Interface — e Quando Outra Ferramenta Se Encaixa

Escolha tradução ao vivo ChatGPT Voice se

  • Você já paga pelo ChatGPT Plus (ou Teams, Enterprise, Edu) e não quer adicionar outra assinatura.
  • Seu caso de uso é uma conversa um-a-um ou pequena presencial em vez de uma reunião multi-participante que precisa de transcrições exibidas.
  • Você aceita uma interface de modo conversacional em vez de uma UI dedicada de tradutor com seletores de idioma origem/destino e uma transcrição salva.
  • Você está confortável com o modelo lidando com atividade de voz e alternância de turnos internamente, sem controle explícito do usuário.

Escolha gpt-realtime-translate (API Realtime) se

  • Você está construindo uma aplicação de desenvolvedor onde tempo-para-primeiro-áudio-traduzido importa mais que margem de compreensão.
  • Sua lista de idiomas de saída cabe dentro de 13 idiomas.
  • Você serve audiências de idiomas índicos (hindi, tâmil, télugu) onde a própria avaliação da OpenAI reporta 12,5% de redução WER sobre alternativas.
  • Você pode construir a camada voltada ao consumidor (UI, telefonia, manuseio de erros, fallbacks de code-switch) em cima da API da OpenAI.
  • Você aceita o trade-off velocidade-vs-compreensão (4,53/5 compreensão vs 4,63 para o pipeline DIY no mesmo benchmark) em troca de uma chamada de API em vez de duas.

Escolha Whisper + GPT-4o-mini DIY se

  • Você precisa de idiomas de saída arbitrários fora do teto de 13 idiomas.
  • Você precisa de controle total de prompt e glossário para vocabulário especializado ou restrições de estilo.
  • Você tem capacidade de engenharia para VAD, detecção de endpoint, filtragem de alucinações, UI de streaming e telefonia.
  • Você quer menor custo por minuto de áudio ($0,006 Whisper) e pode aceitar preços por token GPT-4o-mini.
  • Você quer integrar tradução com a interface de capacidade mais ampla da API Realtime (uso de ferramentas, instruções de sistema) que o modo de tradução dedicado não expõe.

Onde uma ferramenta diferente pode se encaixar melhor

As três interfaces da OpenAI cobrem a maioria dos casos de uso de tradução ao vivo, mas cada uma vive dentro de uma forma específica: ChatGPT Voice é um chatbot com tradução, `gpt-realtime-translate` é uma API de desenvolvedor, e Whisper + GPT-4o-mini é um conjunto de blocos de construção. Uma interface dedicada de app tradutor — com saída de texto + áudio streaming que você pode ler enquanto escuta, atribuição por falante, transcrições exibidas com commit controlado que nunca se retraem, chamadas telefônicas traduzidas de saída, e um nível gratuito fora de um portal de assinatura — é uma categoria de produto diferente. LiveLingo (publicando este guia) se encaixa lá. Trade-off honesto: a saída de áudio do LiveLingo roda através do mecanismo padrão de texto-para-fala da plataforma host, então a voz falada é menos expressiva que a do `gpt-realtime-translate`; a interface conversacional do ChatGPT Voice pode parecer mais natural que uma UI dedicada de tradutor para ida-e-volta casual. Especificações lado-a-lado: /pt/compare/chatgpt-translation. Números do benchmark: /pt/research/benchmark-2026.

8. 8. Perguntas Frequentes

Que tradução ao vivo a OpenAI oferece em 2026?

A OpenAI oferece tradução ao vivo através de três interfaces desde meados de 2026. O ChatGPT Voice inclui um modo de tradução ao vivo para assinantes pagos (Plus, Teams, Enterprise, Edu). `gpt-realtime-translate` é um modelo dedicado de tradução fala-para-fala streaming na API Realtime, lançado em 7 de maio de 2026, com preço de $0,034 por minuto de áudio de entrada com mais de 70 idiomas de entrada e 13 idiomas de saída. Um pipeline DIY de Whisper-large (fala-para-texto) e GPT-4o-mini (tradução) continua disponível para desenvolvedores que querem pares de idiomas arbitrários e controle total da pilha.

Como funciona a tradução ao vivo do ChatGPT Voice?

Toque no ícone Voice no compositor de mensagens do app ChatGPT, então peça ao assistente para traduzir — ex: "traduza entre inglês e japonês." O modelo continua traduzindo através de turnos até ser instruído a parar ou trocar idiomas. Disponível para assinantes pagos do ChatGPT (Plus ~$20/mês, Teams, Enterprise ou Edu). É uma interface de voz conversacional, não uma UI dedicada de tradutor com seletores de idioma origem/destino, pares de transcrição origem-e-traduzida, ou discagem de chamadas.

O que é gpt-realtime-translate?

Modelo dedicado de tradução fala-para-fala streaming da OpenAI na API Realtime, lançado em 7 de maio de 2026. Treinado em milhares de horas de áudio de intérpretes profissionais. Mais de 70 idiomas de entrada → 13 idiomas de saída. Preço de $0,034 por minuto de áudio de entrada. Retorna áudio traduzido mais transcrições de texto tanto da origem quanto da saída. Usuários empresariais documentados no lançamento incluem Deutsche Telekom e Vimeo.

Você ainda pode construir um tradutor ao vivo com Whisper e GPT-4o-mini?

Sim. O pipeline DIY (Whisper-large $0,006/min áudio, 99 idiomas origem; GPT-4o-mini por token) continua sendo a rota OpenAI mais flexível — suporta pares de idiomas arbitrários e dá controle total sobre chunking, prompting e formato de saída. O trade-off é custo de engenharia: a API do Whisper não segmenta fala contínua em limites de enunciado, então o desenvolvedor deve construir VAD, lógica de endpoint, filtragem de alucinações, UI de streaming e telefonia.

Quais são a latência e compreensão medidas do gpt-realtime-translate?

No adendo do benchmark LiveLingo Research (10 de junho de 2026), `gpt-realtime-translate` teve a latência de primeiro áudio mais rápida de qualquer sistema testado — mediana de 711 ms do início da fala ao primeiro áudio traduzido. Composto de fidelidade de compreensão foi 4,53 / 5, o mais baixo dos seis sistemas medidos. Em fala contínua, voz traduzida ficou atrás do falante — mediana de 3,8 s, derivando até 20,3 s em áudio denso. Erros recorrentes: inserções estranhas, inversões de significado, substituições de nomes próprios. Fonte: livelingo.io/research/benchmark-2026.

Esses números refletem a experiência do usuário ChatGPT Voice?

Não. Os números medidos são para a chamada bruta da API Realtime `gpt-realtime-translate`. O ChatGPT Voice é construído na mesma infraestrutura Realtime mas o app consumidor adiciona seu próprio VAD do lado cliente, estado de conversa, renderização de UI, e pode aplicar suavização do lado servidor não medida separadamente. Um usuário do ChatGPT Voice pode ver latência percebida diferente, drift de lag e comportamento de code-switching que os números de nível API reportam. Trate o benchmark publicado como o piso de experiência do desenvolvedor no endpoint da API Realtime, não o teto do usuário ChatGPT-Voice.

Como a OpenAI lida com code-switching?

Segundo a documentação de desenvolvedor da OpenAI, `gpt-realtime-translate` pode pular fala já no idioma de saída. No benchmark LiveLingo isso apareceu como silêncio no clipe VOA zh→en na marca de 86 segundos quando a origem mudou para inglês. Gemini 3.5 Live Translate exibe a mesma lacuna no mesmo clipe. Sistemas de transcrição de texto streaming que passam fala do idioma alvo para a transcrição exibida não têm essa lacuna.

Quando você deve escolher qual interface OpenAI?

Tradução ao vivo ChatGPT Voice se você já paga pelo ChatGPT Plus ou superior e aceita uma interface conversacional. `gpt-realtime-translate` se você constrói uma aplicação de desenvolvedor onde velocidade-para-primeiro-áudio importa mais que estabilidade de texto exibido, sua lista de idiomas de saída cabe dentro de 13, e você pode construir a interface do consumidor por cima. Whisper + GPT-4o-mini DIY se você precisa de idiomas de saída arbitrários, controle total de prompt e glossário, menor custo por minuto, e capacidade de engenharia para construir VAD, detecção de endpoint, filtragem de alucinações, UI de streaming e telefonia.

9. 9. Fontes

  • OpenAI. Advancing voice intelligence with new models in the API. Blog OpenAI, 7 de maio de 2026. openai.com
  • OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. Cookbook OpenAI. developers.openai.com
  • OpenAI Developers. Realtime and audio (guia da API Realtime). developers.openai.com
  • OpenAI. ChatGPT Voice mode (página de recursos do consumidor). chatgpt.com
  • OpenAI. API pricing (taxas por modelo). openai.com/api/pricing
  • OpenAI. ChatGPT pricing (níveis do consumidor). openai.com/chatgpt/pricing
  • OpenAI. Speech-to-text guide (documentação Whisper). platform.openai.com
  • Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time, 7 de maio de 2026. tomsguide.com
  • 9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak, 7 de maio de 2026. 9to5mac.com
  • Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT. slator.com
  • openai/whisper. GitHub Discussions — alucinações em clipes curtos. github.com
  • LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — adendo OpenAI gpt-realtime-translate, 10 de junho de 2026. livelingo.io/research/benchmark-2026
  • LiveLingo. LiveLingo vs ChatGPT: Tradução de Voz em Tempo Real Comparada (2026). livelingo.io/compare/chatgpt-translation

Preços, disponibilidade, usuários de lançamento e detalhes de acesso de nível consumidor verificados contra as fontes primárias acima em 10 de junho de 2026. A OpenAI pode alterar níveis, preços, cobertura de idiomas e comportamento do modelo; consulte as fontes linkadas para estado atual antes de confiar em qualquer número específico.

Pronto para Quebrar a Barreira do Idioma?

Experimente o LiveLingo grátis — 5 minutos de tradução de voz em tempo real todos os dias, sem cartão de crédito. Faça upgrade para Pro e tenha chamadas traduzidas, resumos de reuniões com IA e 300 minutos por mês.

Experimente o LiveLingo Grátis
Tradução ao Vivo OpenAI (2026): ChatGPT Voice vs API vs Whisper | LiveLingo