LiveLingoLiveLingoTry free

OpenAI Live Vertaling (2026): ChatGPT Voice, gpt-realtime-translate en Whisper+GPT Vergeleken

OpenAI biedt live spraakvertaling aan via drie verschillende platforms vanaf juni 2026: ChatGPT Voice's live vertaalmodus voor betalende abonnees, het speciale `gpt-realtime-translate` model in de Realtime API voor ontwikkelaars, en de Whisper + GPT-4o-mini zelfbouwpijplijn die de flexibele route blijft. Deze gids beschrijft elk platform, de afwegingen ertussen, wat OpenAI's eigen documentatie onthult als beperkingen, en de onafhankelijk gemeten cijfers uit een gepubliceerde reproduceerbare benchmark.

1. 1. Wat OpenAI Levert voor Live Vertaling in 2026

Drie verschillende platforms zijn beschikbaar vanaf juni 2026:

ChatGPT Voice — live vertaling (consument). Live vertaling is ingebouwd in ChatGPT's Voice-modus. Een gebruiker tikt op het Voice-icoon in de ChatGPT app berichtcomposer, vraagt de assistent om tussen talen te vertalen, en het model blijft vertalen gedurende het hele gesprek totdat het wordt gevraagd te stoppen of te wisselen. Dit vereist een betaald ChatGPT-abonnement — Plus, Teams, Enterprise of Edu (OpenAI consumentenprijzenpagina; Plus is ~$20/maand). Er is geen gratis live-vertaal consumententoegang in onze controles vanaf 10 juni 2026. De interface is conversationeel in plaats van een speciale vertaler-UI; er is geen bron/doeltaalpaar selector, geen twee-kolommen bron-en-vertaalde transcript, en geen belfunctie.

`gpt-realtime-translate` (speciale API-model). Op 7 mei 2026 bracht OpenAI een speciaal gebouwd streaming spraak-naar-spraak vertaalmodel uit binnen de Realtime API. Volgens OpenAI's aankondiging werd het model "getraind op duizenden uren professionele tolk-audio" en is geconfigureerd om "alleen-vertaling te blijven en te wachten op voldoende context voordat spraak wordt geproduceerd." Het ondersteunt 70+ invoertalen vertaald naar 13 uitvoertalen en kost $0,034 per minuut invoer-audio (OpenAI API-prijzen). Gedocumenteerde lanceringspartners genoemd in OpenAI's aankondiging: Deutsche Telekom (meertalige klantenservice) en Vimeo (realtime vertaling van product-educatievideo's).

Whisper + GPT-4o-mini (zelfbouwpijplijn). Het oorspronkelijke ontwikkelaarspad blijft beschikbaar. Whisper-large behandelt spraak-naar-tekst (99 talen volgens OpenAI's spraak-naar-tekst gids; $0,006/min audio op OpenAI's API-prijzenpagina); GPT-4o-mini behandelt vertaling (per-token prijzen, zelfde bron). Samen ondersteunen ze willekeurige taalparen — niet het 13-uitvoer plafond van `gpt-realtime-translate` — en geven de ontwikkelaar volledige controle over chunking, prompting, woordenlijstbehandeling en uitvoerformaat. De kosten zijn engineering: Whisper's API segmenteert continue spraak niet in uitingsgrenzen, dus de ontwikkelaar levert spraakactiviteitsdetectie (VAD), eindpuntlogica, hallucinatiefiltering, streaming UI en telefonie.

2. 2. ChatGPT Voice — Live Vertaalmodus (Consument)

ChatGPT Voice met live vertaling draait binnen de consument ChatGPT-app op iOS, Android en het web. De gebruiker opent een Voice-sessie en geeft de assistent een vertaalinstructie zoals "vertaal tussen Engels en Japans." Het model vertaalt dan elke spreker's uitingen naar de gevraagde doeltaal continu, over beurten heen, totdat de gebruiker het vertelt te stoppen, van taal te wisselen, of de sessie te beëindigen.

Toegang vereist een betaald ChatGPT-abonnement. De verbeterde Voice-modus met live vertaling is beschikbaar voor ChatGPT Plus (~$20/maand volgens OpenAI's consumentenprijzenpagina), Teams, Enterprise en Edu gebruikers; toegang wordt gestart via het Voice-icoon in de berichtcomposer (zoals gedocumenteerd op chatgpt.com/features/voice en bevestigd door Tom's Guide en 9to5Mac's lanceringsdekking). De live-vertaalfunctie wordt niet getoond op de gratis laag in onze controles vanaf 10 juni 2026.

Wat de interface je geeft, en wat niet. De gebruikerservaring is een conversationele Voice-sessie — natuurlijk voor een een-op-een cross-language uitwisseling of een klein persoonlijk gesprek. Het bevat geen speciale vertaler-UI met een bron/doeltaal kiezer, een twee-kolommen bron-en-vertaalde transcript paar dat je kunt lezen tijdens het luisteren, een sessie-export, een vergadernotitie, of uitgaande telefoonbel-functionaliteit. Het model behandelt spraakactiviteit en beurtneming intern; de gebruiker heeft geen expliciete controle over eindpunttiming, woordenlijst of promptstijl.

Onderliggend model en gedrag. ChatGPT Voice's live vertaling is gebouwd op OpenAI's Realtime modelfamilie. Lanceringsdekking van de 7 mei 2026 release (Tom's Guide, 9to5Mac, Slator) geeft aan dat het consument Voice-oppervlak dezelfde Realtime infrastructuur gebruikt die `gpt-realtime-translate` host, met consument-app-laag spraakactiviteitsdetectie, gespreksstatus en UI-rendering erop.

3. 3. gpt-realtime-translate — Het Speciale API-Model

`gpt-realtime-translate` is OpenAI's eerste speciaal gebouwde vertaalmodel, uitgebracht op 7 mei 2026 binnen de Realtime API. Het verschilt van de zelfbouw Whisper + GPT-4o-mini route doordat de streaming spraak-naar-spraak transformatie gebeurt in een enkel model in plaats van over twee onafhankelijk-gepromptde API-aanroepen.

Specificaties. Volgens OpenAI's ontwikkelaars kookboek: 70+ invoertalen automatisch gedetecteerd, 13 uitvoertalen. Prijs $0,034 per minuut invoer-audio. Retourneert vertaalde audio plus teksttranscripten van zowel de bronspraak als de vertaalde uitvoer — een transcript-oppervlak dat de consument ChatGPT Voice-modus niet blootlegt. Geen sprekerattributie en geen stemselectie. Gesproken uitvoer kan niet worden herzien nadat het is uitgezonden.

Training en gedrag. OpenAI stelt dat het model werd "getraind op duizenden uren professionele tolk-audio, wat helpt om alleen-vertaling te blijven en te wachten op voldoende context voordat spraak wordt geproduceerd." In OpenAI's eigen evaluatie leverde het model 12,5% lagere Word Error Rates dan enig ander getest model op Hindi, Tamil en Telugu — de gedocumenteerde Indische-taal sterkte van de release.

Vertaalmodus beperkingen. Volgens het OpenAI kookboek is de vertaalmodus API-aanroep een beperkt oppervlak vergeleken met algemeen Realtime API-gebruik. Tekstinvoer wordt niet ondersteund in vertaalmodus, en tool-gebruik en systeeminstructies zijn uitgeschakeld — invoer is audio, uitvoer is audio plus transcripten, en het model gedraagt zich als een speciale tolk in plaats van een algemene stemassistent.

4. 4. Whisper + GPT-4o-mini — De Zelfbouwpijplijn

De Whisper + GPT-4o-mini route blijft beschikbaar en blijft de juiste keuze voor ontwikkelaars die gedragingen nodig hebben die het speciale vertaalmodel niet biedt: willekeurige uitvoertalen buiten het 13-talen plafond, fijnmazige prompt- en woordenlijstcontrole, aangepaste chunking-strategieën, of integratie met andere Realtime API-mogelijkheden zoals tool-gebruik.

Specificaties. Whisper-large ondersteunt 99 invoertalen voor spraak-naar-tekst (OpenAI spraak-naar-tekst gids) voor $0,006 per minuut audio (OpenAI prijzenpagina). GPT-4o-mini behandelt de vertaalstap met per-token prijzen (ook op de OpenAI prijzenpagina). De twee services zijn onafhankelijke netwerkaanroepen; totale per-minuut kosten hangen af van transcriptlengte maar zijn typisch lager dan `gpt-realtime-translate` voor Engels-doel gebruik, en hogere engineering-inspanning.

Wat de ontwikkelaar levert. Productie realtime stemvertaling bovenop Whisper + GPT-4o-mini vereist de volgende componenten, waarvan OpenAI er geen levert:

  • Spraakactiviteitsdetectie (VAD). Whisper's API toont transcriptie op voltooide audio-chunks maar segmenteert continue spraak niet in uitingsgrenzen; de ontwikkelaar levert een aparte VAD om te beslissen wanneer elke chunk te verzenden. Zonder dit is er geen signaal voor wanneer een uiting eindigt.
  • Eindpuntlogica. Beslissen of te wachten op meer audio (lagere latentie, meer herzieningen) of vroeg vast te leggen (hogere latentie, minder herzieningen). De afweging definieert de gebruikerservaring.
  • Hallucinatiefiltering. Whisper halluceert naar verluidt Engels vultekst op korte clips — veelvoorkomende artefacten zijn "Thanks for watching!" en "Subscribe!", toegeschreven aan YouTube-inhoud in zijn trainingscorpus; zie de openai/whisper GitHub discussie over hallucinaties op korte clips. Productie-implementaties vereisen filtering hiervan.
  • Streaming UI-primitieven. Een gated-commit overlay zodat weergegeven tekst niet terugtrekt, accumulatie van gedeeltelijke chunks, scrollgedrag, en de bron-vs-vertaalde weergave.
  • Telefonie-integratie voor telefoongebruik (Twilio, Telnyx of vergelijkbaar), inclusief bidirectionele audio-bridging en per-jurisdictie oproepopname-onthulling compliance.
  • Kostenmonitoring + rate-limit behandeling. Bij aanhoudend gebruik kunnen per-minuut kosten een vast abonnement overschrijden, en per-account rate limits vereisen backoff-strategieën.

5. 5. Hoe Ze Presteren op Onafhankelijke Meting

Wat we hebben gemeten (en wat niet). De cijfers hieronder zijn voor het ruwe `gpt-realtime-translate` Realtime API-eindpunt, programmatisch benaderd via de Python SDK, met dezelfde energie-VAD uitingsgrenzen uniform toegepast op elk API-laag systeem in de LiveLingo benchmark. We hebben de ChatGPT Voice consument-app niet apart gemeten. ChatGPT Voice is gebouwd op dezelfde Realtime infrastructuur maar het consument-oppervlak voegt zijn eigen client-side VAD, gespreksstatus, UI-rendering toe, en kan server-side smoothing toepassen waar we geen programmatische toegang tot hebben. Een ChatGPT Voice gebruiker kan andere waargenomen latentie, lag drift en code-switching gedrag zien dan de API-laag cijfers rapporteren. Waar deze sectie specifieke gedragingen citeert (drift, code-switch stilte), behandel ze als de ontwikkelaarservaring-vloer op het Realtime API-eindpunt, niet het ChatGPT-Voice consument-plafond. De Whisper + GPT-4o-mini zelfbouwpijplijn cijfers zijn eveneens API-laag — ze reflecteren wat een ontwikkelaar ervaart na het samenstellen van een naïeve baseline pijplijn, niet een handmatig afgesteld productiesysteem.

Reproduceerbaarheid. Elk cijfer in deze sectie reproduceert van dezelfde drie 120-seconden VOA publiek domein audio-clips, hetzelfde Realtime API-eindpunt, en hetzelfde Python-harnas gebruikt voor de oorspronkelijke vier-systemen benchmark. De audio (`audio.zip`), ruwe per-uiting JSON (`openai-realtime-results.json`), en methodologie zijn gepubliceerd op livelingo.io/research/benchmark-2026.

gpt-realtime-translate — gemeten gedrag

Snelste eerste-audio van elk getest systeem. Mediaan 711 ms van start van spraak tot eerste vertaalde audio over alle 120 geëvalueerde sessies (p10–p90: 485–1.012 ms). Voor context, Gemini 3.5 Live Translate mat ~2,9 s op dezelfde metriek — `gpt-realtime-translate` is ongeveer vier keer sneller naar eerste uitvoer. Snelheid is de echte sterkte van dit model.

Begrip betrouwbaarheid composiet: 4,53 / 5. Gescoord door twee onafhankelijke frontier LLM-rechters (GPT-4o, Gemini 2.5 Flash) met dezelfde rubriek en rechter-prompts als de oorspronkelijke vier-systemen benchmark, over 120 uitingen en vier taalparen (en→es, en→zh-CN, en→ja, en→de). Dit was de laagste score van de zes gemeten systemen. Hoofd-aan-hoofd tegen LiveLingo op celniveau: 4 overwinningen, 80 gelijke standen, 36 verliezen. Terugkerende foutklassen: overtollige zinnen vooraan uitingen, betekenisomkeringen (bijv. "I was stressed about work" weergegeven als een wens om gestrest te zijn), en eigennamen vervangen door gewone zelfstandige naamwoorden.

Zes-systemen vergelijking op de LiveLingo 2026 benchmark (120 uitingen, vier taalparen, 2-rechter composiet). Ruwe data: livelingo.io/research/benchmark-2026.

SysteemBegrip (0–5)Eerste-audio / TTF latentieUitvoer-oppervlak
LiveLingo4,961.518 ms (vastgelegd transcript)Streaming tekst + audio
Gemini 3.5 Live Translate4,93~3.100 ms (TTF)Audio (tekst bijwagen)
Google Cloud STT v2 + Translate v34,77~26.736 ms (Definitief Transcript)Transcript
Azure Speech Translation4,65~4.755 ms (Definitief Transcript)Transcript
Whisper + GPT-4o-mini (Zelfbouw)4,632.720 ms (Definitief Transcript)Transcript
**OpenAI gpt-realtime-translate****4,53****~3.800 ms (TTF)****Audio + transcript**

Lag drift op continue spraak. Snelheid-naar-eerste-uitvoer is uitstekend, maar op uitgebreide audio valt de vertaalde stem progressief achter de spreker naarmate onvertaalde achterstand accumuleert. Metend van elke bron-uiting einde tot de aankomst van de vertaalde spraak voor die uiting: mediaan 3,8 s, driftend tot 20,3 s achter op de dichte pt→en VOA clip. Dit is de afweging die de audio-naar-audio architectuur creëert — spraakuitvoer is natuurlijk begrensd door de spreeksnelheid van de gesynthetiseerde stem, dus het model kan niet "inhalen" sneller dan menselijk tempo.

Code-switched spraak falen. Volgens OpenAI's ontwikkelaarsdocumentatie kan het model spraak overslaan die al in de uitvoertaal is. Op de zh→en VOA clip in de LiveLingo benchmark kwam dit naar voren als stilte op de 86-seconden mark, toen de bron overschakelde naar Engelse spraak — het model werd stil en gaf de Engelse inhoud niet door aan de vertaalde uitvoer. Gemini 3.5 Live Translate vertoont hetzelfde gat op dezelfde clip; dit is een klasseprobleem voor audio-naar-audio speciale vertaalmodellen (zie uitroep hieronder). Pijplijnen die een streaming teksttranscript tonen kunnen code-switched inhoud doorgeven aan het weergegeven transcript in plaats van het te laten vallen.

Uitvoer-oppervlakken. Vertaalde audio plus teksttranscripten van zowel bron als uitvoer — dichter bij een transcript-eerste product-oppervlak dan Gemini 3.5 Live Translate's alleen-audio API. Geen sprekerattributie. Geen stemselectie. Gesproken uitvoer kan niet worden herzien nadat het is uitgezonden.

Audio-naar-audio is een klasse met gedeelde beperkingen. De gedragingen in deze sectie zijn niet uniek voor `gpt-realtime-translate`. Google's Gemini 3.5 Live Translate, en elk ander huidig spraak-naar-spraak audio-naar-audio vertaalmodel, erft dezelfde klasse van afwegingen: (1) uitvoer-tempo lag drift op continue spraak, omdat vertaalde audio begrensd is door spreeksnelheid en niet sneller kan inhalen dan menselijk tempo; (2) code-switch stilte, omdat het model geconfigureerd is om spraak al in de uitvoertaal over te slaan; (3) geen inline sprekerattributie in de gesynthetiseerde audio; (4) onomkeerbare mid-uiting vastleggingen, omdat gesproken audio niet ingetrokken kan worden zoals weergegeven tekst kan. Systemen die een streaming teksttranscript tonen — inclusief OpenAI's zelfbouw Whisper + GPT-4o-mini route en streaming-transcript vertaalproducten zoals LiveLingo — vermijden (2), (3), en (4) ten koste van ofwel twee-model latentie overhead of een andere uitvoermodaliteit. Behandel dit als een categorie-inzicht, niet een kritiek op één model.

Whisper + GPT-4o-mini zelfbouwpijplijn — gemeten gedrag

Op dezelfde drie 120-seconden VOA clips mat een naïeve baseline Whisper-large + GPT-4o-mini pijplijn een mediaan Definitieve Transcript Latentie van 2.720 ms (95% CI 1.880–3.396, n=28), en zond ≈22 Genormaliseerde Wisselingen per 120-seconden clip uit (token herzieningen over gedeeltelijke chunks). Begrip betrouwbaarheid composiet was 4,63 / 5 over dezelfde vier taalparen.

Opmerkelijk: de zelfbouwpijplijn scoorde hoger begrip dan het speciale `gpt-realtime-translate` model (4,63 vs 4,53). Het speciale model is sneller naar eerste uitvoer en makkelijker te integreren, maar op deze benchmark leest de oudere twee-model pijplijn bronbetekenis iets accurater. De verschillen zijn binnen ~0,10 op een 5-punts schaal en reflecteren verschillende ontwerpprioriteiten — snelheid en operationele eenvoud voor het speciale model, transcript-accuraatheid en prompt-controle voor de pijplijn.

6. 6. Wat OpenAI's Eigen Documentatie Onthult

Uitspraken direct getrokken uit OpenAI's 7 mei 2026 aankondiging en ontwikkelaarsdocumentatie:

  • Trainingscorpus. "Getraind op duizenden uren professionele tolk-audio, wat helpt om alleen-vertaling te blijven en te wachten op voldoende context voordat spraak wordt geproduceerd." (Bron: OpenAI aankondiging.)
  • Taaldekking. 70+ invoertalen naar 13 uitvoertalen. (Bron: OpenAI Kookboek.)
  • Indische-taal sterkte. "12,5% lagere Word Error Rates dan enig ander getest model" op Hindi, Tamil en Telugu in OpenAI's eigen evaluatie. (Bron: OpenAI aankondiging.)
  • Code-switching gedrag. OpenAI's documentatie stelt dat het model spraak al in de uitvoertaal kan overslaan — een ontwerpkeuze die stilte produceert op code-switched audio.
  • Modus beperkingen. In vertaalmodus wordt tekstinvoer niet ondersteund en tool-gebruik plus systeeminstructies zijn uitgeschakeld. De vertaalmodus aanroep is een beperkt oppervlak vergeleken met de algemene Realtime API.
  • Uitvoerformaat (ontwikkelaar). Audio wordt verzonden en ontvangen in ruwe PCM met chunked streaming. Verwijs naar de Realtime API gids voor het exacte formaat en chunk-grootte begeleiding.
  • Prijzen. $0,034 per minuut invoer-audio voor `gpt-realtime-translate`. $0,006 per minuut audio voor Whisper. GPT-4o-mini per-token. ChatGPT Plus is ongeveer $20/maand en is de minimum betaalde laag voor ChatGPT Voice live vertaal toegang. (OpenAI API prijzen en ChatGPT consumentenprijzen.)
  • Gedocumenteerde lanceringsgebruikers. Deutsche Telekom (meertalige klantenservice) en Vimeo (realtime vertaling van product-educatievideo's). (Bron: OpenAI aankondiging.)

7. 7. Wanneer Welk Oppervlak te Kiezen — en Wanneer Een Andere Tool Past

Kies ChatGPT Voice live vertaling als

  • Je al betaalt voor ChatGPT Plus (of Teams, Enterprise, Edu) en geen ander abonnement wilt toevoegen.
  • Je gebruikscase een een-op-een of klein persoonlijk gesprek is in plaats van een multi-partij vergadering die weergegeven transcripten nodig heeft.
  • Je accepteert een conversationele-modus interface in plaats van een speciale vertaler-UI met bron/doeltaal kiezers en een opgeslagen transcript.
  • Je comfortabel bent met het model dat spraakactiviteit en beurtneming intern behandelt, zonder expliciete gebruikerscontrole.

Kies gpt-realtime-translate (Realtime API) als

  • Je een ontwikkelaarsapplicatie bouwt waar tijd-naar-eerste-vertaalde-audio meer uitmaakt dan begripmarge.
  • Je uitvoertaallijst past binnen 13 talen.
  • Je Indische-taal doelgroepen bedient (Hindi, Tamil, Telugu) waar OpenAI's eigen evaluatie 12,5% WER reductie rapporteert over alternatieven.
  • Je de consument-gerichte laag kunt bouwen (UI, telefonie, foutbehandeling, code-switch fallbacks) bovenop OpenAI's API.
  • Je de snelheid-vs-begrip afweging accepteert (4,53/5 begrip vs 4,63 voor de zelfbouwpijplijn op dezelfde benchmark) in ruil voor één API-aanroep in plaats van twee.

Kies Whisper + GPT-4o-mini zelfbouw als

  • Je willekeurige uitvoertalen nodig hebt buiten het 13-talen plafond.
  • Je volledige prompt- en woordenlijstcontrole nodig hebt voor gespecialiseerde vocabulaire of stijlbeperkingen.
  • Je engineering capaciteit hebt voor VAD, eindpuntdetectie, hallucinatiefiltering, streaming UI en telefonie.
  • Je lagere per-minuut audiokosten wilt ($0,006 Whisper) en per-token GPT-4o-mini prijzen kunt accepteren.
  • Je vertaling wilt integreren met het bredere Realtime API mogelijkheden oppervlak (tool-gebruik, systeeminstructies) dat de speciale vertaalmodus niet blootlegt.

Waar een andere tool beter kan passen

OpenAI's drie oppervlakken dekken de meeste live-vertaal gebruiksgevallen, maar elk leeft binnen een specifieke vorm: ChatGPT Voice is een chatbot met vertaling, `gpt-realtime-translate` is een ontwikkelaars-API, en Whisper + GPT-4o-mini is een set bouwstenen. Een speciaal vertaler-app oppervlak — met streaming tekst + audio uitvoer die je kunt lezen tijdens het luisteren, per-spreker attributie, gated-commit weergegeven transcripten die nooit terugtrekken, vertaalde uitgaande telefoongesprekken, en een gratis laag buiten een abonnementspoort — is een andere productcategorie. LiveLingo (die deze gids publiceert) zit daar. Eerlijke afweging: LiveLingo's audio-uitvoer draait via het hostplatform's standaard tekst-naar-spraak engine, dus de gesproken stem is minder expressief dan `gpt-realtime-translate`'s; ChatGPT Voice's conversationele interface kan natuurlijker aanvoelen dan een speciale vertaler-UI voor casual heen-en-weer. Zij-aan-zij specs: /nl/compare/chatgpt-translation. Benchmark cijfers: /nl/research/benchmark-2026.

8. 8. Veelgestelde Vragen

Welke live vertaling biedt OpenAI in 2026?

OpenAI levert live vertaling via drie oppervlakken vanaf medio 2026. ChatGPT Voice bevat een live vertaalmodus voor betalende abonnees (Plus, Teams, Enterprise, Edu). `gpt-realtime-translate` is een speciaal streaming spraak-naar-spraak vertaalmodel in de Realtime API, uitgebracht 7 mei 2026, geprijsd op $0,034 per minuut invoer-audio met 70+ invoertalen en 13 uitvoertalen. Een zelfbouwpijplijn van Whisper-large (spraak-naar-tekst) en GPT-4o-mini (vertaling) blijft beschikbaar voor ontwikkelaars die willekeurige taalparen en volledige controle van de stack willen.

Hoe werkt ChatGPT Voice live vertaling?

Tik op het Voice-icoon in de ChatGPT app berichtcomposer, vraag dan de assistent om te vertalen — bijv. "vertaal tussen Engels en Japans." Het model blijft vertalen over beurten heen totdat het wordt gevraagd te stoppen of van taal te wisselen. Beschikbaar voor betalende ChatGPT abonnees (Plus ~$20/maand, Teams, Enterprise of Edu). Het is een conversationeel stemoppervlak, geen speciale vertaler-UI met bron/doeltaal selectors, bron-en-vertaalde transcript paren, of belfunctionaliteit.

Wat is gpt-realtime-translate?

OpenAI's speciale streaming spraak-naar-spraak vertaalmodel in de Realtime API, uitgebracht op 7 mei 2026. Getraind op duizenden uren professionele tolk-audio. 70+ invoertalen → 13 uitvoertalen. Geprijsd op $0,034 per minuut invoer-audio. Retourneert vertaalde audio plus teksttranscripten van zowel bron als uitvoer. Gedocumenteerde enterprise gebruikers bij lancering zijn Deutsche Telekom en Vimeo.

Kun je nog steeds een live vertaler bouwen met Whisper en GPT-4o-mini?

Ja. De zelfbouwpijplijn (Whisper-large $0,006/min audio, 99 brontalen; GPT-4o-mini per-token) blijft de meest flexibele OpenAI route — het ondersteunt willekeurige taalparen en geeft volledige controle over chunking, prompting en uitvoerformaat. De afweging is engineering kosten: Whisper's API segmenteert continue spraak niet in uitingsgrenzen, dus de ontwikkelaar moet VAD, eindpuntlogica, hallucinatiefiltering, streaming UI en telefonie bouwen.

Wat zijn gpt-realtime-translate's gemeten latentie en begrip?

In de LiveLingo Research benchmark addendum (10 juni 2026) had `gpt-realtime-translate` de snelste eerste-audio latentie van elk getest systeem — mediaan 711 ms van start van spraak tot eerste vertaalde audio. Begrip betrouwbaarheid composiet was 4,53 / 5, de laagste van de zes gemeten systemen. Op continue spraak viel vertaalde stem achter de spreker — mediaan 3,8 s, driftend tot 20,3 s op dichte audio. Terugkerende fouten: overtollige invoegingen, betekenisomkeringen, eigennaam vervangingen. Bron: livelingo.io/research/benchmark-2026.

Reflecteren deze cijfers de ChatGPT Voice gebruikerservaring?

Nee. De gemeten cijfers zijn voor de ruwe `gpt-realtime-translate` Realtime API-aanroep. ChatGPT Voice is gebouwd op dezelfde Realtime infrastructuur maar de consument-app voegt zijn eigen client-side VAD, gespreksstatus, UI-rendering toe, en kan server-side smoothing toepassen die niet apart gemeten is. Een ChatGPT Voice gebruiker kan andere waargenomen latentie, lag drift en code-switching gedrag zien dan de API-laag cijfers rapporteren. Behandel de gepubliceerde benchmark als de ontwikkelaarservaring-vloer op het Realtime API-eindpunt, niet het ChatGPT-Voice gebruiker-plafond.

Hoe behandelt OpenAI code-switching?

Volgens OpenAI's ontwikkelaarsdocumentatie kan `gpt-realtime-translate` spraak al in de uitvoertaal overslaan. In de LiveLingo benchmark kwam dit naar voren als stilte op de zh→en VOA clip op de 86-seconden mark toen de bron overschakelde naar Engels. Gemini 3.5 Live Translate vertoont hetzelfde gat op dezelfde clip. Streaming tekst-transcript systemen die doeltaal-spraak doorgeven aan het weergegeven transcript hebben dit gat niet.

Wanneer moet je welk OpenAI oppervlak kiezen?

ChatGPT Voice live vertaling als je al betaalt voor ChatGPT Plus of hoger en een conversationele interface accepteert. `gpt-realtime-translate` als je een ontwikkelaarsapplicatie bouwt waar snelheid-naar-eerste-audio meer uitmaakt dan weergegeven-tekst stabiliteit, je uitvoertaallijst past binnen 13, en je het consument-oppervlak erop kunt bouwen. Whisper + GPT-4o-mini zelfbouw als je willekeurige uitvoertalen nodig hebt, volledige prompt- en woordenlijstcontrole, lagere per-minuut kosten, en engineering capaciteit om VAD, eindpuntdetectie, hallucinatiefiltering, streaming UI en telefonie te bouwen.

9. 9. Bronnen

Prijzen, beschikbaarheid, lanceringsgebruikers en consument-laag toegangsdetails geverifieerd tegen de primaire bronnen hierboven op 10 juni 2026. OpenAI kan lagen, prijzen, taaldekking en modelgedrag wijzigen; raadpleeg de gelinkte bronnen voor huidige staat voordat je op een specifiek cijfer vertrouwt.

Klaar om de Taalbarrière te Doorbreken?

Probeer LiveLingo gratis — 5 minuten realtime stemvertaling per dag, geen creditcard vereist. Upgrade naar Pro voor vertaalde gesprekken, AI-vergadernotities en 300 minuten per maand.

Probeer LiveLingo Gratis
OpenAI Live Vertaling (2026): ChatGPT Voice vs API Modellen | LiveLingo