1. 1. Ce qu'OpenAI Propose pour la Traduction Live en 2026
Trois interfaces distinctes sont disponibles depuis juin 2026 :
ChatGPT Voice — traduction live (grand public). La traduction live est intégrée au mode Voice de ChatGPT. L'utilisateur appuie sur l'icône Voice dans le compositeur de messages de l'app ChatGPT, demande à l'assistant de traduire entre langues, et le modèle continue à traduire tout au long de la conversation jusqu'à ce qu'on lui dise d'arrêter ou de changer. Cela nécessite un abonnement ChatGPT payant — Plus, Teams, Enterprise, ou Edu (page de tarification grand public OpenAI ; Plus coûte ~20$/mois). Il n'y a pas d'accès gratuit à la traduction live grand public dans nos vérifications au 10 juin 2026. L'interface est conversationnelle plutôt qu'une UI de traducteur dédiée ; il n'y a pas de sélecteur de paire de langues source/cible, pas de transcription à deux colonnes source-et-traduite, et pas de numérotation d'appels.
`gpt-realtime-translate` (modèle API dédié). Le 7 mai 2026, OpenAI a publié un modèle de traduction vocale en streaming spécialement conçu dans l'API Realtime. Selon l'annonce d'OpenAI, le modèle a été "entraîné sur des milliers d'heures d'audio d'interprètes professionnels" et est configuré pour "rester uniquement en mode traduction et attendre suffisamment de contexte avant de produire la parole." Il supporte plus de 70 langues d'entrée traduites vers 13 langues de sortie et coûte 0,034$ par minute d'audio d'entrée (tarification API OpenAI). Partenaires de lancement documentés nommés dans l'annonce d'OpenAI : Deutsche Telekom (support client multilingue) et Vimeo (traduction en temps réel de vidéos éducatives produit).
Whisper + GPT-4o-mini (pipeline DIY). La voie développeur originale reste disponible. Whisper-large gère la transcription vocale (99 langues selon le guide speech-to-text d'OpenAI ; 0,006$/min audio sur la page de tarification API d'OpenAI) ; GPT-4o-mini gère la traduction (tarification par token, même source). Combinés, ils supportent des paires de langues arbitraires — pas le plafond de 13 sorties de `gpt-realtime-translate` — et donnent au développeur un contrôle total sur le découpage, les prompts, la gestion des glossaires, et le format de sortie. Le coût est l'ingénierie : l'API de Whisper ne segmente pas la parole continue en limites d'énoncés, donc le développeur fournit la détection d'activité vocale (VAD), la logique de point final, le filtrage d'hallucinations, l'UI de streaming, et la téléphonie.
2. 2. ChatGPT Voice — Mode Traduction Live (Grand Public)
ChatGPT Voice avec traduction live fonctionne dans l'app grand public ChatGPT sur iOS, Android, et le web. L'utilisateur ouvre une session Voice et donne à l'assistant une instruction de traduction comme "traduis entre anglais et japonais." Le modèle traduit alors chaque énoncé des interlocuteurs dans la langue cible demandée de manière continue, à travers les tours, jusqu'à ce que l'utilisateur lui dise d'arrêter, de changer de langues, ou de terminer la session.
L'accès nécessite un abonnement ChatGPT payant. Le mode Voice amélioré avec traduction live est disponible aux utilisateurs ChatGPT Plus (~20$/mois selon la page de tarification grand public d'OpenAI), Teams, Enterprise, et Edu ; l'accès est initié via l'icône Voice dans le compositeur de messages (comme documenté sur chatgpt.com/features/voice et confirmé par la couverture de lancement de Tom's Guide et 9to5Mac). La fonctionnalité de traduction live n'est pas disponible sur le niveau gratuit dans nos vérifications au 10 juin 2026.
Ce que l'interface vous donne, et ce qu'elle ne donne pas. L'expérience utilisateur est une session Voice conversationnelle — naturelle pour un échange inter-langues en tête-à-tête ou une petite conversation en personne. Elle n'inclut pas une UI de traducteur dédiée avec un sélecteur de langues source/cible, une paire de transcriptions à deux colonnes source-et-traduite que vous pouvez lire en écoutant, un export de session, un mémo de réunion, ou la numérotation d'appels sortants. Le modèle gère l'activité vocale et la prise de tour en interne ; l'utilisateur n'a pas de contrôle explicite sur le timing des points finaux, le glossaire, ou le style de prompt.
Modèle sous-jacent et comportement. La traduction live de ChatGPT Voice est construite sur la famille de modèles Realtime d'OpenAI. La couverture de lancement de la version du 7 mai 2026 (Tom's Guide, 9to5Mac, Slator) indique que l'interface Voice grand public utilise la même infrastructure Realtime qui héberge `gpt-realtime-translate`, avec détection d'activité vocale de couche app-grand-public, état de conversation, et rendu UI par-dessus. La documentation publique des modèles d'OpenAI ne décrit pas de fiche modèle séparée pour la variante traduction Voice grand public au 10 juin 2026.
3. 3. gpt-realtime-translate — Le Modèle API Dédié
`gpt-realtime-translate` est le premier modèle de traduction spécialement conçu d'OpenAI, publié le 7 mai 2026 dans l'API Realtime. Il se distingue de la voie DIY Whisper + GPT-4o-mini en ce que la transformation vocale-à-vocale en streaming se fait dans un seul modèle plutôt qu'à travers deux appels API promptés indépendamment.
Spécifications. Selon le cookbook développeur d'OpenAI : plus de 70 langues d'entrée auto-détectées, 13 langues de sortie. Tarification 0,034$ par minute d'audio d'entrée. Retourne l'audio traduit plus les transcriptions texte de la parole source et de la sortie traduite — une interface de transcription que le mode ChatGPT Voice grand public n'expose pas. Pas d'attribution de locuteur et pas de sélection de voix. La sortie parlée ne peut pas être révisée après émission.
Entraînement et comportement. OpenAI déclare que le modèle a été "entraîné sur des milliers d'heures d'audio d'interprètes professionnels, ce qui l'aide à rester uniquement en mode traduction et à attendre suffisamment de contexte avant de produire la parole." Dans l'évaluation d'OpenAI, le modèle a livré 12,5% de taux d'erreur de mots plus bas que tout autre modèle testé sur l'hindi, le tamoul, et le télougou — la force documentée en langues indiques de la version.
Contraintes du mode traduction. Selon le cookbook OpenAI, l'appel API en mode traduction est une interface contrainte comparée à l'usage général de l'API Realtime. L'entrée texte n'est pas supportée en mode traduction, et l'utilisation d'outils et les instructions système sont désactivées — l'entrée est audio, la sortie est audio plus transcriptions, et le modèle se comporte comme un interprète dédié plutôt qu'un assistant vocal général.
4. 4. Whisper + GPT-4o-mini — Le Pipeline DIY
La voie Whisper + GPT-4o-mini reste disponible et continue d'être le bon choix pour les développeurs qui ont besoin de comportements que le modèle de traduction dédié ne fournit pas : langues de sortie arbitraires en dehors du plafond de 13 langues, contrôle fin des prompts et glossaires, stratégies de découpage personnalisées, ou intégration avec d'autres capacités de l'API Realtime comme l'utilisation d'outils.
Spécifications. Whisper-large supporte 99 langues d'entrée pour la transcription vocale (guide speech-to-text OpenAI) à 0,006$ par minute d'audio (page de tarification OpenAI). GPT-4o-mini gère l'étape de traduction avec tarification par token (aussi sur la page de tarification OpenAI). Les deux services sont des appels réseau indépendants ; le coût total par minute dépend de la longueur de transcription mais est typiquement plus bas que `gpt-realtime-translate` pour l'usage cible anglais, et effort d'ingénierie plus élevé.
Ce que le développeur fournit. La traduction vocale en temps réel de production par-dessus Whisper + GPT-4o-mini nécessite les composants suivants, qu'OpenAI ne fournit pas :
- Détection d'activité vocale (VAD). L'API de Whisper fournit la transcription sur des chunks audio complétés mais ne segmente pas la parole continue en limites d'énoncés ; le développeur fournit une VAD séparée pour décider quand envoyer chaque chunk. Sans elle, il n'y a pas de signal pour quand un énoncé se termine.
- Logique de point final. Décider d'attendre plus d'audio (latence plus basse, plus de révisions) ou de valider tôt (latence plus haute, moins de révisions). Le compromis définit l'expérience utilisateur.
- Filtrage d'hallucinations. Whisper est largement rapporté halluciner du texte de remplissage anglais sur de courts clips — artefacts communs incluent "Thanks for watching!" et "Subscribe!", attribués au contenu YouTube dans son corpus d'entraînement ; voir la discussion GitHub openai/whisper des hallucinations sur courts clips. Les déploiements de production nécessitent de filtrer ceux-ci.
- Primitives UI de streaming. Un overlay de validation fermée pour que le texte affiché ne se rétracte pas, accumulation de chunks partiels, comportement de défilement, et l'affichage source-vs-traduit.
- Intégration téléphonie pour l'usage d'appels téléphoniques (Twilio, Telnyx, ou similaire), incluant le pontage audio bidirectionnel et la conformité de divulgation d'enregistrement d'appels par juridiction.
- Surveillance des coûts + gestion des limites de taux. À usage soutenu, le coût par minute peut dépasser un abonnement forfaitaire, et les limites de taux par compte nécessitent des stratégies de backoff.
5. 5. Comment Elles Performent sur Mesure Indépendante
Ce que nous avons mesuré (et ce que nous n'avons pas). Les chiffres ci-dessous sont pour le point de terminaison API Realtime `gpt-realtime-translate` brut, accédé programmatiquement via le SDK Python, avec les mêmes limites d'énoncés energy-VAD appliquées uniformément à chaque système de niveau API dans le benchmark LiveLingo. Nous n'avons pas mesuré l'app grand public ChatGPT Voice séparément. ChatGPT Voice est construit sur la même infrastructure Realtime mais l'interface grand public ajoute sa propre VAD côté client, état de conversation, rendu UI, et peut appliquer un lissage côté serveur auquel nous n'avons pas d'accès programmatique. Un utilisateur ChatGPT Voice peut voir une latence perçue, dérive de lag, et comportement de changement de code différents de ce que rapportent les chiffres de niveau API. Où cette section cite des comportements spécifiques (dérive, silence de changement de code), traitez-les comme le plancher d'expérience développeur sur le point de terminaison API Realtime, pas le plafond grand public ChatGPT-Voice. Les chiffres du pipeline DIY Whisper + GPT-4o-mini sont similairement de niveau API — ils reflètent ce qu'un développeur expérimente après avoir assemblé un pipeline de base naïf, pas un système de production ajusté à la main.
Reproductibilité. Chaque chiffre dans cette section se reproduit à partir des mêmes trois clips audio de domaine public VOA de 120 secondes, le même point de terminaison API Realtime, et le même harnais Python utilisé pour le benchmark original à quatre systèmes. L'audio (`audio.zip`), le JSON brut par énoncé (`openai-realtime-results.json`), et la méthodologie sont publiés sur livelingo.io/research/benchmark-2026.
gpt-realtime-translate — comportement mesuré
Premier audio le plus rapide de tout système testé. Médiane 711 ms du début de parole au premier audio traduit à travers toutes les 120 sessions évaluées (p10–p90 : 485–1,012 ms). Pour contexte, Gemini 3.5 Live Translate a mesuré ~2,9 s sur la même métrique — `gpt-realtime-translate` est environ quatre fois plus rapide au premier output. La vitesse est la véritable force de ce modèle.
Composite de fidélité de compréhension : 4,53 / 5. Noté par deux juges LLM frontière indépendants (GPT-4o, Gemini 2.5 Flash) utilisant la même rubrique et prompts de juge que le benchmark original à quatre systèmes, à travers 120 énoncés et quatre paires de langues (en→es, en→zh-CN, en→ja, en→de). C'était le score le plus bas des six systèmes mesurés. Tête-à-tête contre LiveLingo au niveau cellule : 4 victoires, 80 égalités, 36 défaites. Classes d'erreur récurrentes : phrases superflues ajoutées au début d'énoncés, inversions de sens (ex. "J'étais stressé par le travail" rendu comme un souhait d'être stressé), et noms propres remplacés par des noms communs.
Comparaison six systèmes sur le benchmark LiveLingo 2026 (120 énoncés, quatre paires de langues, composite 2-juges). Données brutes : livelingo.io/research/benchmark-2026.
| Système | Compréhension (0–5) | Latence premier-audio / TTF | Interface de sortie |
|---|---|---|---|
| LiveLingo | 4,96 | 1,518 ms (transcription validée) | Texte + audio streaming |
| Gemini 3.5 Live Translate | 4,93 | ~3,100 ms (TTF) | Audio (accompagnement texte) |
| Google Cloud STT v2 + Translate v3 | 4,77 | ~26,736 ms (Transcription Finale) | Transcription |
| Azure Speech Translation | 4,65 | ~4,755 ms (Transcription Finale) | Transcription |
| Whisper + GPT-4o-mini (DIY) | 4,63 | 2,720 ms (Transcription Finale) | Transcription |
| **OpenAI gpt-realtime-translate** | **4,53** | **~3,800 ms (TTF)** | **Audio + transcription** |
Dérive de lag sur parole continue. La vitesse-au-premier-output est excellente, mais sur audio étendu la voix traduite tombe progressivement derrière le locuteur alors que l'arriéré non traduit s'accumule. Mesurant de chaque fin d'énoncé source à l'arrivée de la parole traduite pour cet énoncé : médiane 3,8 s, dérivant jusqu'à 20,3 s de retard sur le clip VOA dense pt→en. C'est le compromis que l'architecture audio-à-audio crée — la sortie vocale est naturellement bornée par le taux de parole de la voix synthétisée, donc le modèle ne peut pas "rattraper" plus vite que le rythme humain.
Échec de parole à changement de code. Selon la documentation développeur d'OpenAI, le modèle peut ignorer la parole qui est déjà dans la langue de sortie. Sur le clip VOA zh→en dans le benchmark LiveLingo, cela s'est manifesté comme silence à la marque 86 secondes, quand la source a basculé en parole anglaise — le modèle est devenu silencieux et n'a pas passé le contenu anglais à la sortie traduite. Gemini 3.5 Live Translate présente le même gap sur le même clip ; c'est un problème de classe pour les modèles de traduction dédiés audio-à-audio (voir encadré ci-dessous). Les pipelines qui exposent une transcription texte streaming peuvent passer le contenu à changement de code à la transcription affichée au lieu de le laisser tomber.
Interfaces de sortie. Audio traduit plus transcriptions texte de la source et de la sortie — plus proche d'une interface produit transcription-d'abord que l'API audio-seulement de Gemini 3.5 Live Translate. Pas d'attribution de locuteur. Pas de sélection de voix. La sortie parlée ne peut pas être révisée après émission.
Audio-à-audio est une classe avec limitations partagées. Les comportements dans cette section ne sont pas uniques à `gpt-realtime-translate`. Gemini 3.5 Live Translate de Google, et tout autre modèle de traduction audio-à-audio actuel, hérite de la même classe de compromis : (1) dérive de lag de rythme de sortie sur parole continue, parce que l'audio traduit est borné par le taux de parole et ne peut pas rattraper plus vite que le rythme humain ; (2) silence de changement de code, parce que le modèle est configuré pour ignorer la parole déjà dans la langue de sortie ; (3) pas d'attribution de locuteur en ligne dans l'audio synthétisé ; (4) validations irréversibles en milieu d'énoncé, parce que l'audio parlé ne peut pas être rétracté comme le texte affiché peut l'être. Les systèmes qui exposent une transcription texte streaming — incluant la voie DIY Whisper + GPT-4o-mini d'OpenAI et les produits de traduction à transcription streaming comme LiveLingo — évitent (2), (3), et (4) au coût soit d'overhead de latence à deux modèles soit d'une modalité de sortie différente. Traitez ceci comme un insight de catégorie, pas une critique d'un modèle.
Pipeline DIY Whisper + GPT-4o-mini — comportement mesuré
Sur les mêmes trois clips VOA de 120 secondes, un pipeline de base naïf Whisper-large + GPT-4o-mini a mesuré une Latence de Transcription Finale médiane de 2,720 ms (95% CI 1,880–3,396, n=28), et émis ≈22 Effacements Normalisés par clip de 120 secondes (révisions de tokens à travers chunks partiels). Le composite de fidélité de compréhension était 4,63 / 5 à travers les mêmes quatre paires de langues.
Notamment : le pipeline DIY a scoré une compréhension plus élevée que le modèle dédié `gpt-realtime-translate` (4,63 vs 4,53). Le modèle dédié est plus rapide au premier output et plus facile à intégrer, mais sur ce benchmark l'ancien pipeline à deux modèles lit le sens source légèrement plus précisément. Les différences sont dans ~0,10 sur une échelle 5-points et reflètent différentes priorités de design — vitesse et simplicité opérationnelle pour le modèle dédié, précision de transcription et contrôle de prompt pour le pipeline.
6. 6. Ce que la Documentation d'OpenAI Divulgue
Déclarations tirées directement de l'annonce du 7 mai 2026 d'OpenAI et de la documentation développeur :
- Corpus d'entraînement. "Entraîné sur des milliers d'heures d'audio d'interprètes professionnels, ce qui l'aide à rester uniquement en mode traduction et à attendre suffisamment de contexte avant de produire la parole." (Source : annonce OpenAI.)
- Couverture linguistique. Plus de 70 langues d'entrée vers 13 langues de sortie. (Source : Cookbook OpenAI.)
- Force en langues indiques. "12,5% de taux d'erreur de mots plus bas que tout autre modèle testé" sur l'hindi, le tamoul, et le télougou dans l'évaluation d'OpenAI. (Source : annonce OpenAI.)
- Comportement de changement de code. La documentation d'OpenAI déclare que le modèle peut ignorer la parole déjà dans la langue de sortie — un choix de design qui produit du silence sur audio à changement de code.
- Contraintes de mode. En mode traduction, l'entrée texte n'est pas supportée et l'utilisation d'outils plus les instructions système sont désactivées. L'appel en mode traduction est une interface contrainte comparée à l'API Realtime générale.
- Format de sortie (développeur). L'audio est envoyé et reçu en PCM brut avec streaming par chunks. Référez-vous au guide API Realtime pour le format exact et les conseils de taille de chunk.
- Tarification. 0,034$ par minute d'audio d'entrée pour `gpt-realtime-translate`. 0,006$ par minute audio pour Whisper. GPT-4o-mini par token. ChatGPT Plus coûte environ 20$/mois et est le niveau payant minimum pour l'accès traduction live ChatGPT Voice. (Tarification API OpenAI et tarification grand public ChatGPT.)
- Utilisateurs de lancement documentés. Deutsche Telekom (support client multilingue) et Vimeo (traduction en temps réel de vidéos éducatives produit). (Source : annonce OpenAI.)
7. 7. Quand Choisir Quelle Interface — et Quand Un Autre Outil Convient
Choisissez la traduction live ChatGPT Voice si
- Vous payez déjà pour ChatGPT Plus (ou Teams, Enterprise, Edu) et ne voulez pas ajouter un autre abonnement.
- Votre cas d'usage est une conversation en tête-à-tête ou petite en personne plutôt qu'une réunion multi-parties qui a besoin de transcriptions affichées.
- Vous acceptez une interface en mode conversationnel plutôt qu'une UI de traducteur dédiée avec sélecteurs de langues source/cible et une transcription sauvegardée.
- Vous êtes à l'aise avec le modèle gérant l'activité vocale et la prise de tour en interne, sans contrôle utilisateur explicite.
Choisissez gpt-realtime-translate (API Realtime) si
- Vous construisez une application développeur où le temps-au-premier-audio-traduit importe plus que la marge de compréhension.
- Votre liste de langues de sortie tient dans 13 langues.
- Vous servez des audiences de langues indiques (hindi, tamoul, télougou) où l'évaluation d'OpenAI rapporte 12,5% de réduction WER sur les alternatives.
- Vous pouvez construire la couche face-grand-public (UI, téléphonie, gestion d'erreurs, fallbacks de changement de code) par-dessus l'API d'OpenAI.
- Vous acceptez le compromis vitesse-vs-compréhension (4,53/5 compréhension vs 4,63 pour le pipeline DIY sur le même benchmark) en échange d'un appel API au lieu de deux.
Choisissez Whisper + GPT-4o-mini DIY si
- Vous avez besoin de langues de sortie arbitraires en dehors du plafond de 13 langues.
- Vous avez besoin de contrôle complet des prompts et glossaires pour vocabulaire spécialisé ou contraintes de style.
- Vous avez la capacité d'ingénierie pour VAD, détection de point final, filtrage d'hallucinations, UI streaming, et téléphonie.
- Vous voulez un coût par minute audio plus bas (0,006$ Whisper) et pouvez accepter la tarification par token GPT-4o-mini.
- Vous voulez intégrer la traduction avec la surface de capacité API Realtime plus large (utilisation d'outils, instructions système) que le mode traduction dédié n'expose pas.
Où un outil différent peut mieux convenir
Les trois interfaces d'OpenAI couvrent la plupart des cas d'usage de traduction live, mais chacune vit dans une forme spécifique : ChatGPT Voice est un chatbot avec traduction, `gpt-realtime-translate` est une API développeur, et Whisper + GPT-4o-mini est un ensemble de blocs de construction. Une interface d'app-traducteur dédiée — avec sortie texte + audio streaming que vous pouvez lire en écoutant, attribution par locuteur, transcriptions affichées à validation fermée qui ne se rétractent jamais, appels sortants traduits, et un niveau gratuit en dehors d'une porte d'abonnement — est une catégorie de produit différente. LiveLingo (publiant ce guide) se situe là. Compromis honnête : la sortie audio de LiveLingo passe par le moteur text-to-speech par défaut de la plateforme hôte, donc la voix parlée est moins expressive que celle de `gpt-realtime-translate` ; l'interface conversationnelle de ChatGPT Voice peut sembler plus naturelle qu'une UI de traducteur dédiée pour des échanges décontractés. Spécifications côte-à-côte : /fr/compare/chatgpt-translation. Chiffres de benchmark : /fr/research/benchmark-2026.
8. 8. Questions Fréquemment Posées
Quelle traduction live OpenAI offre-t-il en 2026 ?
OpenAI propose la traduction live sur trois interfaces depuis mi-2026. ChatGPT Voice inclut un mode traduction live pour les abonnés payants (Plus, Teams, Enterprise, Edu). `gpt-realtime-translate` est un modèle de traduction vocale streaming dédié dans l'API Realtime, publié le 7 mai 2026, tarifé à 0,034$ par minute d'audio d'entrée avec plus de 70 langues d'entrée et 13 langues de sortie. Un pipeline DIY de Whisper-large (speech-to-text) et GPT-4o-mini (traduction) reste disponible pour les développeurs qui veulent des paires de langues arbitraires et un contrôle complet de la pile.
Comment fonctionne la traduction live ChatGPT Voice ?
Appuyez sur l'icône Voice dans le compositeur de messages de l'app ChatGPT, puis demandez à l'assistant de traduire — ex. "traduis entre anglais et japonais." Le modèle continue à traduire à travers les tours jusqu'à ce qu'on lui dise d'arrêter ou de changer de langues. Disponible aux abonnés ChatGPT payants (Plus ~20$/mois, Teams, Enterprise, ou Edu). C'est une interface vocale conversationnelle, pas une UI de traducteur dédiée avec sélecteurs de langues source/cible, paires de transcriptions source-et-traduite, ou numérotation d'appels.
Qu'est-ce que gpt-realtime-translate ?
Le modèle de traduction vocale streaming dédié d'OpenAI dans l'API Realtime, publié le 7 mai 2026. Entraîné sur des milliers d'heures d'audio d'interprètes professionnels. Plus de 70 langues d'entrée → 13 langues de sortie. Tarifé à 0,034$ par minute d'audio d'entrée. Retourne l'audio traduit plus les transcriptions texte de la source et de la sortie. Utilisateurs entreprise documentés au lancement incluent Deutsche Telekom et Vimeo.
Peut-on encore construire un traducteur live avec Whisper et GPT-4o-mini ?
Oui. Le pipeline DIY (Whisper-large 0,006$/min audio, 99 langues source ; GPT-4o-mini par token) reste la voie OpenAI la plus flexible — il supporte des paires de langues arbitraires et donne un contrôle complet sur le découpage, les prompts, et le format de sortie. Le compromis est le coût d'ingénierie : l'API de Whisper ne segmente pas la parole continue en limites d'énoncés, donc le développeur doit construire VAD, logique de point final, filtrage d'hallucinations, UI streaming, et téléphonie.
Quelles sont la latence et compréhension mesurées de gpt-realtime-translate ?
Dans l'addendum du benchmark LiveLingo Research (10 juin 2026), `gpt-realtime-translate` avait la latence premier-audio la plus rapide de tout système testé — médiane 711 ms du début de parole au premier audio traduit. Le composite de fidélité de compréhension était 4,53 / 5, le score le plus bas des six systèmes mesurés. Sur parole continue, la voix traduite tombait derrière le locuteur — médiane 3,8 s, dérivant jusqu'à 20,3 s sur audio dense. Erreurs récurrentes : insertions superflues, inversions de sens, substitutions de noms propres. Source : livelingo.io/research/benchmark-2026.
Ces chiffres reflètent-ils l'expérience utilisateur ChatGPT Voice ?
Non. Les chiffres mesurés sont pour l'appel API Realtime `gpt-realtime-translate` brut. ChatGPT Voice est construit sur la même infrastructure Realtime mais l'app grand public ajoute sa propre VAD côté client, état de conversation, rendu UI, et peut appliquer un lissage côté serveur non mesuré séparément. Un utilisateur ChatGPT Voice peut voir une latence perçue, dérive de lag, et comportement de changement de code différents de ce que rapportent les chiffres de niveau API. Traitez le benchmark publié comme le plancher d'expérience développeur sur le point de terminaison API Realtime, pas le plafond utilisateur ChatGPT-Voice.
Comment OpenAI gère-t-il le changement de code ?
Selon la documentation développeur d'OpenAI, `gpt-realtime-translate` peut ignorer la parole déjà dans la langue de sortie. Dans le benchmark LiveLingo cela s'est manifesté comme silence sur le clip VOA zh→en à la marque 86 secondes quand la source a basculé en anglais. Gemini 3.5 Live Translate présente le même gap sur le même clip. Les systèmes de transcription-texte streaming qui passent la parole en langue cible à la transcription affichée n'ont pas ce gap.
Quand devriez-vous choisir quelle interface OpenAI ?
Traduction live ChatGPT Voice si vous payez déjà pour ChatGPT Plus ou plus et acceptez une interface conversationnelle. `gpt-realtime-translate` si vous construisez une application développeur où la vitesse-au-premier-audio importe plus que la stabilité du texte affiché, votre liste de langues de sortie tient dans 13, et vous pouvez construire l'interface grand public par-dessus. Whisper + GPT-4o-mini DIY si vous avez besoin de langues de sortie arbitraires, contrôle complet des prompts et glossaires, coût par minute plus bas, et capacité d'ingénierie pour construire VAD, détection de point final, filtrage d'hallucinations, UI streaming, et téléphonie.
9. 9. Sources
- OpenAI. Advancing voice intelligence with new models in the API. Blog OpenAI, 7 mai 2026. openai.com
- OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. Cookbook OpenAI. developers.openai.com
- OpenAI Developers. Realtime and audio (guide API Realtime). developers.openai.com
- OpenAI. ChatGPT Voice mode (page fonctionnalités grand public). chatgpt.com
- OpenAI. API pricing (tarifs par modèle). openai.com/api/pricing
- OpenAI. ChatGPT pricing (niveaux grand public). openai.com/chatgpt/pricing
- OpenAI. Speech-to-text guide (documentation Whisper). platform.openai.com
- Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time, 7 mai 2026. tomsguide.com
- 9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak, 7 mai 2026. 9to5mac.com
- Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT. slator.com
- openai/whisper. GitHub Discussions — hallucinations on short clips. github.com
- LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — OpenAI gpt-realtime-translate addendum, 10 juin 2026. livelingo.io/research/benchmark-2026
- LiveLingo. LiveLingo vs ChatGPT: Real-Time Voice Translation Compared (2026). livelingo.io/compare/chatgpt-translation
Tarification, disponibilité, utilisateurs de lancement, et détails d'accès niveau grand public vérifiés contre les sources primaires ci-dessus le 10 juin 2026. OpenAI peut changer les niveaux, tarification, couverture linguistique, et comportement des modèles ; consultez les sources liées pour l'état actuel avant de vous fier à tout chiffre spécifique.