Tradução ao Vivo OpenAI (2026): ChatGPT Voice vs API vs Whisper

1. 1. O que a OpenAI Oferece para Tradução ao Vivo em 2026

Três interfaces distintas estão disponíveis desde junho de 2026:

ChatGPT Voice — tradução ao vivo (consumidor). A tradução ao vivo está integrada ao modo Voice do ChatGPT. O usuário toca no ícone Voice no compositor de mensagens do app ChatGPT, pede ao assistente para traduzir entre idiomas, e o modelo continua traduzindo durante toda a conversa até ser instruído a parar ou trocar. Isso requer uma assinatura paga do ChatGPT — Plus, Teams, Enterprise ou Edu (página de preços do consumidor OpenAI; Plus custa ~$20/mês). Não há acesso gratuito à tradução ao vivo do consumidor em nossas verificações de 10 de junho de 2026. A interface é conversacional em vez de uma UI dedicada de tradutor; não há seletor de par de idiomas origem/destino, nem transcrição em duas colunas origem-e-traduzida, nem discagem de chamadas.

`gpt-realtime-translate` (modelo de API dedicado). Em 7 de maio de 2026, a OpenAI lançou um modelo de tradução fala-para-fala streaming construído especificamente dentro da API Realtime. Segundo o anúncio da OpenAI, o modelo foi "treinado em milhares de horas de áudio de intérpretes profissionais" e é configurado para "permanecer apenas na tradução e aguardar contexto suficiente antes de produzir fala." Suporta mais de 70 idiomas de entrada traduzidos para 13 idiomas de saída e custa $0,034 por minuto de áudio de entrada (preços da API OpenAI). Parceiros de lançamento documentados nomeados no anúncio da OpenAI: Deutsche Telekom (suporte ao cliente multilíngue) e Vimeo (tradução em tempo real de vídeos educacionais de produtos).

Whisper + GPT-4o-mini (pipeline DIY). O caminho original para desenvolvedores continua disponível. O Whisper-large lida com fala-para-texto (99 idiomas segundo o guia de fala-para-texto da OpenAI; $0,006/min de áudio na página de preços da API OpenAI); o GPT-4o-mini lida com a tradução (preços por token, mesma fonte). Combinados, eles suportam pares de idiomas arbitrários — não o teto de 13 saídas do `gpt-realtime-translate` — e dão ao desenvolvedor controle total sobre chunking, prompting, manuseio de glossário e formato de saída. O custo é a engenharia: a API do Whisper não segmenta fala contínua em limites de enunciado, então o desenvolvedor fornece detecção de atividade de voz (VAD), lógica de endpoint, filtragem de alucinações, UI de streaming e telefonia.

2. 2. ChatGPT Voice — Modo de Tradução ao Vivo (Consumidor)

O ChatGPT Voice com tradução ao vivo roda dentro do app consumidor ChatGPT no iOS, Android e web. O usuário abre uma sessão Voice e dá ao assistente uma instrução de tradução como "traduza entre inglês e japonês." O modelo então traduz os enunciados de cada falante para o idioma alvo solicitado continuamente, através de turnos, até o usuário dizer para parar, trocar idiomas ou encerrar a sessão.

O acesso requer uma assinatura paga do ChatGPT. O modo Voice atualizado com tradução ao vivo está disponível para usuários ChatGPT Plus (~$20/mês segundo a página de preços do consumidor OpenAI), Teams, Enterprise e Edu; o acesso é iniciado via ícone Voice no compositor de mensagens (conforme documentado em chatgpt.com/features/voice e confirmado pela cobertura de lançamento do Tom's Guide e 9to5Mac). O recurso de tradução ao vivo não aparece no nível gratuito em nossas verificações de 10 de junho de 2026.

O que a interface oferece, e o que não oferece. A experiência do usuário é uma sessão Voice conversacional — natural para um intercâmbio cross-linguístico um-a-um ou uma pequena conversa presencial. Não inclui uma UI dedicada de tradutor com seletor de idioma origem/destino, um par de transcrição origem-e-traduzida em duas colunas que você pode ler enquanto escuta, exportação de sessão, resumo de reunião ou discagem de chamadas telefônicas. O modelo lida com atividade de voz e alternância de turnos internamente; o usuário não tem controle explícito sobre timing de endpoint, glossário ou estilo de prompt.

Modelo subjacente e comportamento. A tradução ao vivo do ChatGPT Voice é construída na família de modelos Realtime da OpenAI. A cobertura de lançamento do release de 7 de maio de 2026 (Tom's Guide, 9to5Mac, Slator) indica que a interface Voice do consumidor usa a mesma infraestrutura Realtime que hospeda o `gpt-realtime-translate`, com detecção de atividade de voz na camada do app consumidor, estado de conversa e renderização de UI por cima. A documentação pública de modelos da OpenAI não descreve um cartão de modelo separado para a variante de tradução Voice do consumidor em 10 de junho de 2026.

3. 3. gpt-realtime-translate — O Modelo de API Dedicado

`gpt-realtime-translate` é o primeiro modelo de tradução construído especificamente pela OpenAI, lançado em 7 de maio de 2026 dentro da API Realtime. É distinto da rota DIY Whisper + GPT-4o-mini no sentido de que a transformação streaming fala-para-fala acontece em um único modelo em vez de duas chamadas de API com prompts independentes.

Especificações. Segundo o cookbook de desenvolvedores da OpenAI: mais de 70 idiomas de entrada auto-detectados, 13 idiomas de saída. Preço de $0,034 por minuto de áudio de entrada. Retorna áudio traduzido mais transcrições de texto tanto da fala origem quanto da saída traduzida — uma interface de transcrição que o modo ChatGPT Voice do consumidor não expõe. Sem atribuição de falante e sem seleção de voz. A saída falada não pode ser revisada depois de emitida.

Treinamento e comportamento. A OpenAI afirma que o modelo foi "treinado em milhares de horas de áudio de intérpretes profissionais, o que o ajuda a permanecer apenas na tradução e aguardar contexto suficiente antes de produzir fala." Na própria avaliação da OpenAI, o modelo entregou 12,5% menos Taxa de Erro de Palavras que qualquer outro modelo testado em hindi, tâmil e télugu — a força documentada em idiomas índicos do lançamento.

Restrições do modo de tradução. Segundo o cookbook da OpenAI, a chamada de API do modo de tradução é uma interface restrita comparada ao uso geral da API Realtime. Entrada de texto não é suportada no modo de tradução, e uso de ferramentas e instruções de sistema são desabilitados — entrada é áudio, saída é áudio mais transcrições, e o modelo se comporta como um intérprete dedicado em vez de um assistente de voz geral.

4. 4. Whisper + GPT-4o-mini — O Pipeline DIY

A rota Whisper + GPT-4o-mini continua disponível e continua sendo a escolha certa para desenvolvedores que precisam de comportamentos que o modelo de tradução dedicado não fornece: idiomas de saída arbitrários fora do teto de 13 idiomas, controle fino de prompt e glossário, estratégias de chunking customizadas, ou integração com outras capacidades da API Realtime como uso de ferramentas.

Especificações. O Whisper-large suporta 99 idiomas de entrada para fala-para-texto (guia de fala-para-texto OpenAI) a $0,006 por minuto de áudio (página de preços OpenAI). O GPT-4o-mini lida com o passo de tradução com preços por token (também na página de preços OpenAI). Os dois serviços são chamadas de rede independentes; o custo total por minuto depende do comprimento da transcrição mas é tipicamente menor que `gpt-realtime-translate` para uso com alvo em inglês, e maior esforço de engenharia.

O que o desenvolvedor fornece. Tradução de voz em tempo real de produção em cima de Whisper + GPT-4o-mini requer os seguintes componentes, nenhum dos quais a OpenAI fornece:

Detecção de atividade de voz (VAD). A API do Whisper fornece transcrição em chunks de áudio completos mas não segmenta fala contínua em limites de enunciado; o desenvolvedor fornece um VAD separado para decidir quando enviar cada chunk. Sem isso, não há sinal de quando um enunciado termina.
Lógica de endpoint. Decidir se aguardar mais áudio (menor latência, mais revisões) ou confirmar cedo (maior latência, menos revisões). O trade-off define a experiência do usuário.
Filtragem de alucinações. O Whisper é amplamente reportado por alucinar texto de preenchimento em inglês em clipes curtos — artefatos comuns incluem "Thanks for watching!" e "Subscribe!", atribuídos ao conteúdo do YouTube em seu corpus de treinamento; veja a discussão do GitHub openai/whisper sobre alucinações em clipes curtos. Deployments de produção requerem filtragem desses.
Primitivos de UI de streaming. Uma sobreposição de commit controlado para que o texto exibido não se retraia, acumulação de chunks parciais, comportamento de scroll e a exibição origem-vs-traduzida.
Integração de telefonia para uso em chamadas telefônicas (Twilio, Telnyx ou similar), incluindo ponte de áudio bidirecional e conformidade de divulgação de gravação de chamadas por jurisdição.
Monitoramento de custos + manuseio de limite de taxa. Em uso sustentado, o custo por minuto pode exceder uma assinatura fixa, e limites de taxa por conta requerem estratégias de backoff.

5. 5. Como Eles Performam em Medição Independente

O que medimos (e o que não medimos). Os números abaixo são para o endpoint bruto da API Realtime `gpt-realtime-translate`, acessado programaticamente via SDK Python, com os mesmos limites de enunciado energy-VAD aplicados uniformemente a todos os sistemas de nível API no benchmark LiveLingo. Não medimos o app consumidor ChatGPT Voice separadamente. O ChatGPT Voice é construído na mesma infraestrutura Realtime mas a interface do consumidor adiciona seu próprio VAD do lado cliente, estado de conversa, renderização de UI, e pode aplicar suavização do lado servidor à qual não temos acesso programático. Um usuário do ChatGPT Voice pode ver latência percebida diferente, drift de lag e comportamento de code-switching que os números de nível API reportam. Onde esta seção cita comportamentos específicos (drift, silêncio de code-switch), trate-os como o piso de experiência do desenvolvedor no endpoint da API Realtime, não o teto do consumidor ChatGPT-Voice. Os números do pipeline DIY Whisper + GPT-4o-mini são similarmente de nível API — eles refletem o que um desenvolvedor experimenta depois de montar um pipeline baseline ingênuo, não um sistema de produção ajustado à mão.

Reprodutibilidade. Cada número nesta seção reproduz dos mesmos três clipes de áudio de domínio público VOA de 120 segundos, o mesmo endpoint da API Realtime, e o mesmo harness Python usado para o benchmark original de quatro sistemas. O áudio (`audio.zip`), JSON bruto por enunciado (`openai-realtime-results.json`), e metodologia são publicados em livelingo.io/research/benchmark-2026.

gpt-realtime-translate — comportamento medido

Primeiro áudio mais rápido de qualquer sistema testado. Mediana de 711 ms do início da fala ao primeiro áudio traduzido através de todas as 120 sessões avaliadas (p10–p90: 485–1.012 ms). Para contexto, Gemini 3.5 Live Translate mediu ~2,9 s na mesma métrica — `gpt-realtime-translate` é aproximadamente quatro vezes mais rápido para primeira saída. Velocidade é a força genuína deste modelo.

Composto de fidelidade de compreensão: 4,53 / 5. Pontuado por dois juízes LLM de fronteira independentes (GPT-4o, Gemini 2.5 Flash) usando a mesma rubrica e prompts de juiz do benchmark original de quatro sistemas, através de 120 enunciados e quatro pares de idiomas (en→es, en→zh-CN, en→ja, en→de). Esta foi a pontuação mais baixa dos seis sistemas medidos. Cara-a-cara contra LiveLingo no nível celular: 4 vitórias, 80 empates, 36 derrotas. Classes de erro recorrentes: frases estranhas anexadas no início dos enunciados, inversões de significado (ex: "I was stressed about work" renderizado como um desejo de estar estressado), e nomes próprios substituídos por substantivos comuns.

Comparação de seis sistemas no benchmark LiveLingo 2026 (120 enunciados, quatro pares de idiomas, composto de 2 juízes). Dados brutos: livelingo.io/research/benchmark-2026.

Sistema	Compreensão (0–5)	Latência primeiro áudio / TTF	Interface de saída
LiveLingo	4,96	1.518 ms (transcrição confirmada)	Texto + áudio streaming
Gemini 3.5 Live Translate	4,93	~3.100 ms (TTF)	Áudio (texto auxiliar)
Google Cloud STT v2 + Translate v3	4,77	~26.736 ms (Transcrição Final)	Transcrição
Azure Speech Translation	4,65	~4.755 ms (Transcrição Final)	Transcrição
Whisper + GPT-4o-mini (DIY)	4,63	2.720 ms (Transcrição Final)	Transcrição
OpenAI gpt-realtime-translate	4,53	~3.800 ms (TTF)	Áudio + transcrição

Drift de lag em fala contínua. Velocidade para primeira saída é excelente, mas em áudio estendido a voz traduzida fica progressivamente atrás do falante conforme backlog não traduzido se acumula. Medindo do fim de cada enunciado origem até a chegada da fala traduzida para aquele enunciado: mediana de 3,8 s, derivando até 20,3 s atrás no clipe VOA denso pt→en. Este é o trade-off que a arquitetura áudio-para-áudio cria — saída de fala é naturalmente limitada pela taxa de fala da voz sintetizada, então o modelo não pode "alcançar" mais rápido que o ritmo humano.

Falha de fala com code-switching. Segundo a documentação de desenvolvedor da OpenAI, o modelo pode pular fala que já está no idioma de saída. No clipe VOA zh→en no benchmark LiveLingo, isso apareceu como silêncio na marca de 86 segundos, quando a origem mudou para fala em inglês — o modelo ficou silencioso e não passou o conteúdo em inglês para a saída traduzida. Gemini 3.5 Live Translate exibe a mesma lacuna no mesmo clipe; este é um problema de classe para modelos de tradução dedicados áudio-para-áudio (veja destaque abaixo). Pipelines que expõem uma transcrição de texto streaming podem passar conteúdo com code-switch para a transcrição exibida em vez de descartá-lo.

Interfaces de saída. Áudio traduzido mais transcrições de texto tanto da origem quanto da saída — mais próximo de uma interface de produto transcript-first que a API apenas-áudio do Gemini 3.5 Live Translate. Sem atribuição de falante. Sem seleção de voz. Saída falada não pode ser revisada depois de emitida.

Áudio-para-áudio é uma classe com limitações compartilhadas. Os comportamentos nesta seção não são únicos ao `gpt-realtime-translate`. O Gemini 3.5 Live Translate do Google, e qualquer outro modelo atual de tradução áudio-para-áudio fala-para-fala, herda a mesma classe de trade-offs: (1) drift de lag de ritmo de saída em fala contínua, porque áudio traduzido é limitado pela taxa de fala e não pode alcançar mais rápido que ritmo humano; (2) silêncio de code-switch, porque o modelo é configurado para pular fala já no idioma de saída; (3) sem atribuição de falante inline no áudio sintetizado; (4) commits irreversíveis no meio do enunciado, porque áudio falado não pode ser retraído da forma que texto exibido pode. Sistemas que expõem uma transcrição de texto streaming — incluindo a rota DIY Whisper + GPT-4o-mini da OpenAI e produtos de tradução de transcrição streaming como LiveLingo — evitam (2), (3), e (4) ao custo de overhead de latência de dois modelos ou uma modalidade de saída diferente. Trate isso como um insight de categoria, não uma crítica de um modelo.

Pipeline DIY Whisper + GPT-4o-mini — comportamento medido

Nos mesmos três clipes VOA de 120 segundos, um pipeline baseline ingênuo Whisper-large + GPT-4o-mini mediu uma Latência de Transcrição Final mediana de 2.720 ms (95% CI 1.880–3.396, n=28), e emitiu ≈22 Apagamentos Normalizados por clipe de 120 segundos (revisões de token através de chunks parciais). O composto de fidelidade de compreensão foi 4,63 / 5 através dos mesmos quatro pares de idiomas.

Notavelmente: o pipeline DIY pontuou compreensão maior que o modelo dedicado `gpt-realtime-translate` (4,63 vs 4,53). O modelo dedicado é mais rápido para primeira saída e mais fácil de integrar, mas neste benchmark o pipeline de dois modelos mais antigo lê significado da origem ligeiramente mais precisamente. As diferenças estão dentro de ~0,10 em uma escala de 5 pontos e refletem prioridades de design diferentes — velocidade e simplicidade operacional para o modelo dedicado, precisão de transcrição e controle de prompt para o pipeline.

6. 6. O que a Própria Documentação da OpenAI Revela

Declarações extraídas diretamente do anúncio de 7 de maio de 2026 da OpenAI e documentação de desenvolvedor:

Corpus de treinamento. "Treinado em milhares de horas de áudio de intérpretes profissionais, o que o ajuda a permanecer apenas na tradução e aguardar contexto suficiente antes de produzir fala." (Fonte: anúncio OpenAI.)
Cobertura de idiomas. Mais de 70 idiomas de entrada para 13 idiomas de saída. (Fonte: Cookbook OpenAI.)
Força em idiomas índicos. "12,5% menos Taxa de Erro de Palavras que qualquer outro modelo testado" em hindi, tâmil e télugu na própria avaliação da OpenAI. (Fonte: anúncio OpenAI.)
Comportamento de code-switching. A documentação da OpenAI afirma que o modelo pode pular fala já no idioma de saída — uma escolha de design que produz silêncio em áudio com code-switch.
Restrições de modo. No modo de tradução, entrada de texto não é suportada e uso de ferramentas mais instruções de sistema são desabilitados. A chamada do modo de tradução é uma interface restrita comparada à API Realtime geral.
Formato de saída (desenvolvedor). Áudio é enviado e recebido em PCM bruto com streaming em chunks. Consulte o guia da API Realtime para o formato exato e orientação de tamanho de chunk.
Preços. $0,034 por minuto de áudio de entrada para `gpt-realtime-translate`. $0,006 por minuto de áudio para Whisper. GPT-4o-mini por token. ChatGPT Plus é aproximadamente $20/mês e é o nível pago mínimo para acesso à tradução ao vivo ChatGPT Voice. (Preços da API OpenAI e preços do consumidor ChatGPT.)
Usuários de lançamento documentados. Deutsche Telekom (suporte ao cliente multilíngue) e Vimeo (tradução em tempo real de vídeos educacionais de produtos). (Fonte: anúncio OpenAI.)

7. 7. Quando Escolher Qual Interface — e Quando Outra Ferramenta Se Encaixa

Escolha tradução ao vivo ChatGPT Voice se

Você já paga pelo ChatGPT Plus (ou Teams, Enterprise, Edu) e não quer adicionar outra assinatura.
Seu caso de uso é uma conversa um-a-um ou pequena presencial em vez de uma reunião multi-participante que precisa de transcrições exibidas.
Você aceita uma interface de modo conversacional em vez de uma UI dedicada de tradutor com seletores de idioma origem/destino e uma transcrição salva.
Você está confortável com o modelo lidando com atividade de voz e alternância de turnos internamente, sem controle explícito do usuário.

Escolha gpt-realtime-translate (API Realtime) se

Você está construindo uma aplicação de desenvolvedor onde tempo-para-primeiro-áudio-traduzido importa mais que margem de compreensão.
Sua lista de idiomas de saída cabe dentro de 13 idiomas.
Você serve audiências de idiomas índicos (hindi, tâmil, télugu) onde a própria avaliação da OpenAI reporta 12,5% de redução WER sobre alternativas.
Você pode construir a camada voltada ao consumidor (UI, telefonia, manuseio de erros, fallbacks de code-switch) em cima da API da OpenAI.
Você aceita o trade-off velocidade-vs-compreensão (4,53/5 compreensão vs 4,63 para o pipeline DIY no mesmo benchmark) em troca de uma chamada de API em vez de duas.

Escolha Whisper + GPT-4o-mini DIY se

Você precisa de idiomas de saída arbitrários fora do teto de 13 idiomas.
Você precisa de controle total de prompt e glossário para vocabulário especializado ou restrições de estilo.
Você tem capacidade de engenharia para VAD, detecção de endpoint, filtragem de alucinações, UI de streaming e telefonia.
Você quer menor custo por minuto de áudio ($0,006 Whisper) e pode aceitar preços por token GPT-4o-mini.
Você quer integrar tradução com a interface de capacidade mais ampla da API Realtime (uso de ferramentas, instruções de sistema) que o modo de tradução dedicado não expõe.

Onde uma ferramenta diferente pode se encaixar melhor

As três interfaces da OpenAI cobrem a maioria dos casos de uso de tradução ao vivo, mas cada uma vive dentro de uma forma específica: ChatGPT Voice é um chatbot com tradução, `gpt-realtime-translate` é uma API de desenvolvedor, e Whisper + GPT-4o-mini é um conjunto de blocos de construção. Uma interface dedicada de app tradutor — com saída de texto + áudio streaming que você pode ler enquanto escuta, atribuição por falante, transcrições exibidas com commit controlado que nunca se retraem, chamadas telefônicas traduzidas de saída, e um nível gratuito fora de um portal de assinatura — é uma categoria de produto diferente. LiveLingo (publicando este guia) se encaixa lá. Trade-off honesto: a saída de áudio do LiveLingo roda através do mecanismo padrão de texto-para-fala da plataforma host, então a voz falada é menos expressiva que a do `gpt-realtime-translate`; a interface conversacional do ChatGPT Voice pode parecer mais natural que uma UI dedicada de tradutor para ida-e-volta casual. Especificações lado-a-lado: /pt/compare/chatgpt-translation. Números do benchmark: /pt/research/benchmark-2026.

8. 8. Perguntas Frequentes

Que tradução ao vivo a OpenAI oferece em 2026?

A OpenAI oferece tradução ao vivo através de três interfaces desde meados de 2026. O ChatGPT Voice inclui um modo de tradução ao vivo para assinantes pagos (Plus, Teams, Enterprise, Edu). `gpt-realtime-translate` é um modelo dedicado de tradução fala-para-fala streaming na API Realtime, lançado em 7 de maio de 2026, com preço de $0,034 por minuto de áudio de entrada com mais de 70 idiomas de entrada e 13 idiomas de saída. Um pipeline DIY de Whisper-large (fala-para-texto) e GPT-4o-mini (tradução) continua disponível para desenvolvedores que querem pares de idiomas arbitrários e controle total da pilha.

Como funciona a tradução ao vivo do ChatGPT Voice?

Toque no ícone Voice no compositor de mensagens do app ChatGPT, então peça ao assistente para traduzir — ex: "traduza entre inglês e japonês." O modelo continua traduzindo através de turnos até ser instruído a parar ou trocar idiomas. Disponível para assinantes pagos do ChatGPT (Plus ~$20/mês, Teams, Enterprise ou Edu). É uma interface de voz conversacional, não uma UI dedicada de tradutor com seletores de idioma origem/destino, pares de transcrição origem-e-traduzida, ou discagem de chamadas.

O que é gpt-realtime-translate?

Modelo dedicado de tradução fala-para-fala streaming da OpenAI na API Realtime, lançado em 7 de maio de 2026. Treinado em milhares de horas de áudio de intérpretes profissionais. Mais de 70 idiomas de entrada → 13 idiomas de saída. Preço de $0,034 por minuto de áudio de entrada. Retorna áudio traduzido mais transcrições de texto tanto da origem quanto da saída. Usuários empresariais documentados no lançamento incluem Deutsche Telekom e Vimeo.

Você ainda pode construir um tradutor ao vivo com Whisper e GPT-4o-mini?

Sim. O pipeline DIY (Whisper-large $0,006/min áudio, 99 idiomas origem; GPT-4o-mini por token) continua sendo a rota OpenAI mais flexível — suporta pares de idiomas arbitrários e dá controle total sobre chunking, prompting e formato de saída. O trade-off é custo de engenharia: a API do Whisper não segmenta fala contínua em limites de enunciado, então o desenvolvedor deve construir VAD, lógica de endpoint, filtragem de alucinações, UI de streaming e telefonia.

Quais são a latência e compreensão medidas do gpt-realtime-translate?

No adendo do benchmark LiveLingo Research (10 de junho de 2026), `gpt-realtime-translate` teve a latência de primeiro áudio mais rápida de qualquer sistema testado — mediana de 711 ms do início da fala ao primeiro áudio traduzido. Composto de fidelidade de compreensão foi 4,53 / 5, o mais baixo dos seis sistemas medidos. Em fala contínua, voz traduzida ficou atrás do falante — mediana de 3,8 s, derivando até 20,3 s em áudio denso. Erros recorrentes: inserções estranhas, inversões de significado, substituições de nomes próprios. Fonte: livelingo.io/research/benchmark-2026.

Esses números refletem a experiência do usuário ChatGPT Voice?

Não. Os números medidos são para a chamada bruta da API Realtime `gpt-realtime-translate`. O ChatGPT Voice é construído na mesma infraestrutura Realtime mas o app consumidor adiciona seu próprio VAD do lado cliente, estado de conversa, renderização de UI, e pode aplicar suavização do lado servidor não medida separadamente. Um usuário do ChatGPT Voice pode ver latência percebida diferente, drift de lag e comportamento de code-switching que os números de nível API reportam. Trate o benchmark publicado como o piso de experiência do desenvolvedor no endpoint da API Realtime, não o teto do usuário ChatGPT-Voice.

Como a OpenAI lida com code-switching?

Segundo a documentação de desenvolvedor da OpenAI, `gpt-realtime-translate` pode pular fala já no idioma de saída. No benchmark LiveLingo isso apareceu como silêncio no clipe VOA zh→en na marca de 86 segundos quando a origem mudou para inglês. Gemini 3.5 Live Translate exibe a mesma lacuna no mesmo clipe. Sistemas de transcrição de texto streaming que passam fala do idioma alvo para a transcrição exibida não têm essa lacuna.

Quando você deve escolher qual interface OpenAI?

Tradução ao vivo ChatGPT Voice se você já paga pelo ChatGPT Plus ou superior e aceita uma interface conversacional. `gpt-realtime-translate` se você constrói uma aplicação de desenvolvedor onde velocidade-para-primeiro-áudio importa mais que estabilidade de texto exibido, sua lista de idiomas de saída cabe dentro de 13, e você pode construir a interface do consumidor por cima. Whisper + GPT-4o-mini DIY se você precisa de idiomas de saída arbitrários, controle total de prompt e glossário, menor custo por minuto, e capacidade de engenharia para construir VAD, detecção de endpoint, filtragem de alucinações, UI de streaming e telefonia.

9. 9. Fontes

OpenAI. Advancing voice intelligence with new models in the API. Blog OpenAI, 7 de maio de 2026. openai.com
OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. Cookbook OpenAI. developers.openai.com
OpenAI Developers. Realtime and audio (guia da API Realtime). developers.openai.com
OpenAI. ChatGPT Voice mode (página de recursos do consumidor). chatgpt.com
OpenAI. API pricing (taxas por modelo). openai.com/api/pricing
OpenAI. ChatGPT pricing (níveis do consumidor). openai.com/chatgpt/pricing
OpenAI. Speech-to-text guide (documentação Whisper). platform.openai.com
Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time, 7 de maio de 2026. tomsguide.com
9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak, 7 de maio de 2026. 9to5mac.com
Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT. slator.com
openai/whisper. GitHub Discussions — alucinações em clipes curtos. github.com
LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — adendo OpenAI gpt-realtime-translate, 10 de junho de 2026. livelingo.io/research/benchmark-2026
LiveLingo. LiveLingo vs ChatGPT: Tradução de Voz em Tempo Real Comparada (2026). livelingo.io/compare/chatgpt-translation

Preços, disponibilidade, usuários de lançamento e detalhes de acesso de nível consumidor verificados contra as fontes primárias acima em 10 de junho de 2026. A OpenAI pode alterar níveis, preços, cobertura de idiomas e comportamento do modelo; consulte as fontes linkadas para estado atual antes de confiar em qualquer número específico.

Tradução ao Vivo OpenAI (2026): ChatGPT Voice, gpt-realtime-translate e Whisper+GPT Comparados

1. 1. O que a OpenAI Oferece para Tradução ao Vivo em 2026

2. 2. ChatGPT Voice — Modo de Tradução ao Vivo (Consumidor)

3. 3. gpt-realtime-translate — O Modelo de API Dedicado

4. 4. Whisper + GPT-4o-mini — O Pipeline DIY

5. 5. Como Eles Performam em Medição Independente

gpt-realtime-translate — comportamento medido

Pipeline DIY Whisper + GPT-4o-mini — comportamento medido

6. 6. O que a Própria Documentação da OpenAI Revela

7. 7. Quando Escolher Qual Interface — e Quando Outra Ferramenta Se Encaixa

Escolha tradução ao vivo ChatGPT Voice se

Escolha gpt-realtime-translate (API Realtime) se

Escolha Whisper + GPT-4o-mini DIY se

Onde uma ferramenta diferente pode se encaixar melhor

8. 8. Perguntas Frequentes

Que tradução ao vivo a OpenAI oferece em 2026?

Como funciona a tradução ao vivo do ChatGPT Voice?

O que é gpt-realtime-translate?

Você ainda pode construir um tradutor ao vivo com Whisper e GPT-4o-mini?

Quais são a latência e compreensão medidas do gpt-realtime-translate?

Esses números refletem a experiência do usuário ChatGPT Voice?

Como a OpenAI lida com code-switching?

Quando você deve escolher qual interface OpenAI?

9. 9. Fontes

Pronto para Quebrar a Barreira do Idioma?

1. 1. O que a OpenAI Oferece para Tradução ao Vivo em 2026

2. 2. ChatGPT Voice — Modo de Tradução ao Vivo (Consumidor)

3. 3. gpt-realtime-translate — O Modelo de API Dedicado

4. 4. Whisper + GPT-4o-mini — O Pipeline DIY

5. 5. Como Eles Performam em Medição Independente

gpt-realtime-translate — comportamento medido

Pipeline DIY Whisper + GPT-4o-mini — comportamento medido

6. 6. O que a Própria Documentação da OpenAI Revela

7. 7. Quando Escolher Qual Interface — e Quando Outra Ferramenta Se Encaixa

Escolha tradução ao vivo ChatGPT Voice se

Escolha gpt-realtime-translate (API Realtime) se

Escolha Whisper + GPT-4o-mini DIY se

Onde uma ferramenta diferente pode se encaixar melhor

8. 8. Perguntas Frequentes

Que tradução ao vivo a OpenAI oferece em 2026?

Como funciona a tradução ao vivo do ChatGPT Voice?

O que é gpt-realtime-translate?

Você ainda pode construir um tradutor ao vivo com Whisper e GPT-4o-mini?

Quais são a latência e compreensão medidas do gpt-realtime-translate?

Esses números refletem a experiência do usuário ChatGPT Voice?

Como a OpenAI lida com code-switching?

Quando você deve escolher qual interface OpenAI?

9. 9. Fontes

Continue lendo

Mejores Auriculares de Traducción en Amazon: Guía del Comprador 2026

Gemini 3.5 Live Translate: Guía Completa de Traducción IA en Tiempo Real

Auriculares de Traducción IA: ¿Cuáles Funcionan Realmente en 2026?

Traducción Alemán-Español: 7 Mejores Herramientas Comparadas 2026

Pronto para Quebrar a Barreira do Idioma?