
1. 1. Wat Gemini 3.5 Live Vertaling Is
Gemini 3.5 Live Vertaling is een streaming spraak-naar-spraak vertaalmodel dat Google aankondigde op 9 juni 2026. Twee kenmerken onderscheiden het van eerdere vertaalproducten.
Ten eerste is het audio-naar-audio in plaats van de oudere spraak-naar-tekst-naar-vertaling-naar-tekst-naar-spraak pipeline. Het model accepteert gestreamde bronaudio in stukjes van 100 milliseconden en produceert vertaalde spraak als output. Teksttranscripties zijn beschikbaar, maar alleen als bijproduct van de gesproken output — er is geen streaming tekstmodus en geen sprekerattributie in de vertaalde audio.
Ten tweede is de gegenereerde stem ontworpen om de prosodie van de spreker te behouden. Google's aankondiging beschrijft output die de intonatie, timing en toonhoogte van de spreker behoudt. In de praktijk produceert dit een vertaalde stem die aanzienlijk natuurlijker klinkt dan een generieke tekst-naar-spraak engine die een vertaling hardop voorleest — een echt voordeel ten opzichte van spraakvertaalsystemen waarvan de audio-output door een standaard TTS-laag gaat.
Het model is gebouwd op Gemini 3 Pro. Volgens de Gemini 3.5 Audio modelkaart gepubliceerd door Google DeepMind, accepteert het audio-input met tot een 128K-token contextvenster en produceert audio + tekst output tot 64K tokens. Het detecteert automatisch meer dan 70 talen, inclusief snelle taalwisselingen tussen sprekers, hoewel die detectie gedocumenteerde zwaktes heeft (behandeld in Sectie 4).
De lancering omvat drie productoppervlakken parallel: ontwikkelaarstoegang via de Gemini Live API en Google AI Studio (publieke preview vanaf 9 juni 2026); consumentoegang via de Google Translate app op Android en iOS, wereldwijd uitgerold vanaf die dag, met een nieuwe "luistermodus" op Android; en bedrijfstoegang via Google Meet in private preview voor geselecteerde Google Workspace klanten, waar het Meet's vertaaldekking uitbreidt van 5 talen naar 70+ en meer dan 2.000 bron/doel combinaties binnen één vergadering ondersteunt.
2. 2. Hoe Het Werkt: Audio-naar-Audio Architectuur en Prosodiebehoud
Drie architecturale keuzes onderscheiden Gemini 3.5 Live Vertaling van eerdere streaming-vertaalsystemen.
Spraak-naar-spraak, niet spraak-naar-tekst-naar-spraak
Traditionele pipelines voeren audio door een streaming spraak-naar-tekst model, voeden het transcript aan een machinevertaalmodel, en synthetiseren vervolgens de vertaling via een apart tekst-naar-spraak model. Elke fase voegt latentie toe en accumuleert fouten. Gemini 3.5 Live Vertaling vouwt deze stappen samen in één audiomodel. De afweging: de output is permanente audio, geen bewerkbare tekst — eenmaal uitgesproken kan een woord niet herzien worden midden in de uiting.
Continue streaming, niet beurtelings
Google's aankondiging positioneert het model als een dat "de afweging balanceert tussen wachten op context om kwaliteit te verbeteren en onmiddellijk vertalen om synchroon te blijven met de spreker." Eerdere consumentenproducten zoals Google Translate's vorige Gespreksmodus waren beurtelings: tik, spreek, wacht tot het systeem finaliseert en de vertaling uitzendt, laat dan de andere partij tikken. Gemini 3.5 Live Vertaling zendt continu vertaalde spraak uit terwijl de bronspreker nog aan het praten is, waarbij Google een vertraging van "enkele seconden" beschrijft.
Prosodieoverdracht
Het model is ontworpen om de vocale kenmerken van de bronspreker — intonatie, timing, nadruk, toonhoogte — over te dragen naar de vertaalde audio. Dit is de belangrijkste technische reden waarom de output natuurlijk klinkt in plaats van robotachtig. Het is ook de bron van de stemconsistentiebeperkingen die Google's modelkaart onthult (Sectie 4).
Op het ontwikkelaarsoppervlak gebruikt elke sessie ruwe 16-bit PCM audio op 16 kHz mono als input en produceert 24 kHz mono PCM audio als output, verzonden in stukjes van 100 milliseconden. Alle gegenereerde audio draagt Google's SynthID watermerk — een onmerkbare handtekening geweven in de golfvorm die downstream systemen in staat stelt de audio te identificeren als machinegegenereerd.

3. 3. Waar Gemini 3.5 Live Vertaling Het Sterkst Is
Vijf productsterke punten worden onmiddellijk zichtbaar bij het vergelijken van Gemini 3.5 Live Vertaling met zijn concurrenten.
Natuurlijk klinkende vertaalde spraak. De prosodie-behoudende stem is het duidelijkste voordeel ten opzichte van spraakvertaalsystemen waarvan de audio-output door een generieke TTS-engine gaat. Als je een spraakvertaal-app hebt gebruikt waarvan de vertaalde audio klinkt als een vlakke verteller die een reeks woorden voorleest, is het contrast onmiddellijk. Gemini 3.5 Live Vertaling is materieel beter hier, en het verschil is hoorbaar bij de eerste zin.
Audio-naar-audio eenvoud. Het bouwen van een spraakvertaalapplicatie betekende traditioneel het aan elkaar koppelen van een streaming STT-model (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), een vertaalmodel en een TTS-engine — en het beheren van de gedeeltelijke-emit semantiek van elk. Gemini 3.5 Live Vertaling vervangt die keten met één API-aanroep, wat zowel de applicatiecode als het faaloppervlak vereenvoudigt.
Automatische taaldetectie op schaal. 70+ talen automatisch gedetecteerd, zonder dat de gebruiker vooraf een taalpaar hoeft in te stellen. Google's positionering benadrukt use cases zoals vergaderingen met meerdere partijen waar sprekers midden in het gesprek van taal wisselen.
Distributie. Direct ingebouwd in de Google Translate consumentenapp en Google Meet. Voor eindgebruikers zijn de installatie- en ontdekkingskosten bijna nul — ze hebben de app al. Voor Meet-klanten komt vertaling als een functieknop binnen een workflow die al in gebruik is.
Gemerkte output. SynthID watermerking maakt de gegenereerde spraak identificeerbaar als AI-gegenereerd voor downstream compliance use cases, wat nuttig is in gereguleerde industrieën die AI-gegenereerde content moeten tracken.
4. 4. Wat Google's Eigen Modelkaart Erkent als Beperkingen
De Gemini 3.5 Audio modelkaart gepubliceerd door Google DeepMind documenteert specifieke bekende beperkingen van Gemini 3.5 Live Vertaling. Direct citerend uit de kaart:
Taaldetectie
"Taaldetectie kan worstelen met niet-moedertaalaccenten, vergelijkbare talen, of snelle taalwisselingen." Praktische implicatie: als een spreker een sterk accent heeft, of de brontaal dicht bij een verwante taal ligt (Portugees vs. Spaans, Noors vs. Zweeds), of het gesprek snel van taal wisselt, kan de detector de verkeerde brontaal kiezen en dienovereenkomstig vertalen.
Stemconsistentie in multi-spreker sessies
"Stemmen kunnen inconsistent zijn, en stemmen kunnen verschuiven na lange pauzes, van geslacht veranderen, of vastzitten op één stem tijdens snelle multi-spreker sessies." Dit is de meest praktisch significante beperking voor veel use cases. In een vergadering met verschillende sprekers die snel beurten nemen, kan het model alle vertaalde output in één stem produceren — waarbij de sprekerattributie verloren gaat waar luisteraars op vertrouwen om het gesprek te volgen.
Ruisfiltering
"Ontworpen om achtergrondgeluid te filteren, maar niet alle achtergrondaudio wordt mogelijk genegeerd." Echte omgevingen zullen nog steeds onder bepaalde omstandigheden doorsijpelen.
Vertaalmodus beperkingen (ontwikkelaars API)
Volgens lanceringsberichtgeving die Google's ontwikkelaarsdocumentatie citeert, "tekstinvoer wordt niet ondersteund in vertaalmodus" en het model "laat tool gebruik en systeeminstructies vallen in deze modus." Voor ontwikkelaars is de vertaal-API-aanroep een beperkt oppervlak — je kunt geen tekst sturen, je kunt het bredere Gemini tool ecosysteem niet gebruiken, en je kunt geen systeemprompts injecteren. Vertaling in, vertaling uit.
5. 5. Onafhankelijke Metingen Uit de LiveLingo 2026 Benchmark
LiveLingo Research evalueerde Gemini 3.5 Live Vertaling op de lanceringsdag (9 juni 2026) tegen hetzelfde protocol gebruikt voor de oorspronkelijke benchmark van Google Cloud STT v2 + Translation v3, Azure Speech Translation, en Whisper-large + GPT-4o-mini. Het volledige addendum is gepubliceerd op livelingo.io/research/benchmark-2026#comprehension-gemini-live; de hoofdcijfers staan hieronder.
Begripsgetrouwheid composiet: 4,93 / 5 over 120 uitingen en vier taalparen (en→es, en→zh-CN, en→ja, en→de). Dit is het sterkste resultaat onder de vier concurrerende systemen op de benchmark; de dichtstbijzijnde score is 4,77 (Google Cloud Translation v3).
Eerste-audio latentie: mediaan 2.947 ms van start van spraak tot eerste vertaalde audio (p10–p90: 2.859–3.104 ms). Dit is een constante ~3-seconden spreekvertraging, consistent met Google's "enkele seconden achter" framing.
Output is alleen vertaalde spraak. De API heeft geen streaming tekstmodus en geen per-spreker attributie. Teksttranscripties zijn beschikbaar als bijproduct van de gesproken output. Gesproken output kan niet herzien worden nadat het uitgezonden is.
Code-gewisselde audio. Op een Mandarijnse nieuwsclip die na 86 seconden overschakelt naar Engelse straatinterviews, registreerde de LiveLingo-benchmark dat de vertaaluitvoer bij elke run stopt bij de overschakeling: spraak die al in de uitvoertaal is, wordt noch vertaald, noch getranscribeerd, zodat de laatste 34 seconden van de inhoud (~28% van de clip) geruisloos verdwijnen voor de luisteraar zonder dat er een fout wordt gemeld. OpenAIs gpt-realtime-translate vertoont hetzelfde gedrag op dezelfde clip, en OpenAI documenteert het overslaan van uitvoertaalspraak als opzettelijk; het is een structurele beperking van huidige spraak-naar-spraakvertalers bij gemengde-taalaudio.
Feitelijke inversie bij laat-oplossende syntaxis. Op een Mandarijn bedrijfsspreek clip werd een zin die een 15% verkoopstijging beschreef in het Engels weergegeven als een doel om de verkoop met 15% te verhogen. Dit is de foutklasse die onomkeerbare mid-zin audio commitment produceert wanneer de brontaal het betekenisdragende element (de polariteit, de tijdsreferentie, het onderwerp) tot laat in de zin uitstelt.
Dit zijn onafhankelijke metingen, niet Google's eigen cijfers; methodologie en ruwe per-uiting data staan in het gepubliceerde addendum.
6. 6. Hoe Toegang Te Krijgen Tot Gemini 3.5 Live Vertaling
Consument — Google Translate app
Update de Google Translate app naar de nieuwste versie op Android of iOS. Live Vertaling modus wordt wereldwijd uitgerold vanaf 9 juni 2026 — beschikbaarheid hangt af van het store uitrolschema in je regio. Op Android laat een nieuwe "luistermodus" je vertaalde spraak direct via de oortelefoon van je apparaat horen.
Ontwikkelaar — Gemini Live API + Google AI Studio
Het model is beschikbaar in publieke preview via de Gemini Live API en via Google AI Studio. Volgens de lanceringsberichtgeving zijn de integratiebeperkingen specifiek: alleen audio-invoer (geen tekstinvoer in vertaalmodus), geen tool gebruik of systeeminstructies, ruwe 16-bit PCM 16 kHz mono invoer opgedeeld in 100 ms, 24 kHz PCM output. Raadpleeg Google AI Studio voor huidige quota's en prijzen.
Bedrijf — Google Meet
Gemini 3.5 Live Vertaling is in private preview voor geselecteerde Google Workspace klanten vanaf 9 juni 2026. Waar ingeschakeld, breidt het Meet's vertaaldekking uit van 5 talen naar 70+ talen en ondersteunt 2.000+ bron/doel combinaties binnen één vergadering. Beschikbaarheid is rollend, niet universeel.
7. 7. Wanneer Gemini 3.5 Te Gebruiken — en Wanneer Een Andere Tool Beter Past
Wanneer Gemini 3.5 Live Vertaling de juiste keuze is
- Je wilt vertaalde spraak, geen vertaalde tekst. De natuurlijke stem output is het grootste voordeel van het product.
- Je bent al in de Google Translate app of Google Meet. Integratie kost nul om te ontdekken en gebruiken.
- Je gesprekken zijn één-op-één, of hebben duidelijke beurtwisseling met pauzes tussen sprekers. De stemconsistentiebeperkingen die Google's modelkaart onthult zijn zwakker in deze contexten.
- Je bouwt een ontwikkelaarsapplicatie waar het vereenvoudigen van de STT → MT → TTS keten in een enkele API belangrijker is dan fijnmazige controle over elke fase.
- Je kunt leven zonder sprekerattributie in de audio-output, en zonder streaming teksttranscripties.
Wanneer je misschien een andere tool prefereert
- Je hebt streaming tekst nodig naast of in plaats van audio. Streaming tekst is wat de meeste productie-interfaces op het scherm tonen tijdens live ondertiteling, conferentievertaling en toegankelijkheidsscenario's. Gemini 3.5 Live Vertaling's tekst is alleen bijproduct.
- Je hebt per-spreker attributie nodig in de vertaalde output. De modelkaart's "kan vastzitten op één stem tijdens snelle multi-spreker sessies" onthulling maakt dit een echt risico voor vergaderingen.
- Je vertaalt gesprekken waar stabiliteit belangrijker is dan expressiviteit. Audio-output kan niet herzien worden mid-uiting, dus op talen met laat-oplossende syntaxis (Mandarijn polariteit aan het zinseinde, Japans werkwoord aan het zinseinde), kan een vroege commitment de betekenis omkeren. Het benchmark addendum documenteert zo'n geval.
- Je hebt vertaalde telefoongesprekken nodig — een PSTN-nummer bellen met vertaling die op de lijn draait. De Gemini Live API is een bouwsteen voor ontwikkelaars, geen telefoongesprekprovider.
Een eerlijke concessie. LiveLingo, het product dat deze gids publiceert, past bij de tweede kolom op de meeste van deze dimensies: streaming tekst + audio output, per-spreker attributie, monotone gated commit zodat getoonde vertalingen nooit ingetrokken worden, vertaalde uitgaande telefoongesprekken. LiveLingo's audio-output gebruikt echter de standaard tekst-naar-spraak engine van het hostplatform (iOS native op Apple apparaten), wat minder natuurlijk klinkt dan Gemini 3.5 Live Vertaling's gegenereerde stem. Dat is een echt voordeel dat Google vandaag heeft geleverd. Vergelijk specificaties naast elkaar op livelingo.io/compare/google-translate, of gemeten benchmarkcijfers op livelingo.io/research/benchmark-2026.
8. 8. Veelgestelde Vragen
Wat is Gemini 3.5 Live Vertaling?
Gemini 3.5 Live Vertaling is een streaming spraak-naar-spraak vertaalmodel uitgebracht door Google op 9 juni 2026. Het is gebouwd op Gemini 3 Pro, genereert vertaalde audio die de intonatie, timing en toonhoogte van de spreker behoudt, en detecteert automatisch 70+ talen. Het is beschikbaar voor ontwikkelaars via de Gemini Live API en Google AI Studio (publieke preview), voor consumenten via de Google Translate app op Android en iOS, en voor geselecteerde Google Workspace klanten via Google Meet (private preview).
Welke talen ondersteunt Gemini 3.5 Live Vertaling?
Meer dan 70 talen, automatisch gedetecteerd. In Google Meet specifiek breidt dit de vorige dekking uit van 5 talen naar 70+ talen en ondersteunt meer dan 2.000 bron/doel combinaties binnen één vergadering.
Hoeveel kost Gemini 3.5 Live Vertaling?
Voor consumenten is de Google Translate app gratis. Ontwikkelaarstoegang via de Gemini Live API en Google AI Studio wordt geprijsd volgens Google's standaard API-tarieven — check Google AI Studio voor huidige prijzen. Bedrijfstoegang via Google Meet is beperkt tot geselecteerde Google Workspace klanten in private preview vanaf 9 juni 2026.
Hoe gaat Gemini 3.5 Live Vertaling om met meerdere sprekers?
Volgens de Gemini 3.5 Audio modelkaart gepubliceerd door Google DeepMind: "Stemmen kunnen inconsistent zijn, en stemmen kunnen verschuiven na lange pauzes, van geslacht veranderen, of vastzitten op één stem tijdens snelle multi-spreker sessies." Praktisch: één-op-één gesprekken en beurtwisseling discussies met duidelijke pauzes werken goed; snelle multi-spreker scenario's zijn een gedocumenteerde zwakte. Er is geen per-spreker attributie in de vertaalde audio-output.
Geeft Gemini 3.5 Live Vertaling tekst uit?
De primaire output is vertaalde spraak. Teksttranscripties zijn beschikbaar, maar alleen als bijproduct van de gesproken output — er is geen streaming tekstmodus, en de vertaalmodus API accepteert geen tekstinvoer.
Wat is Gemini 3.5 Live Vertaling's gemeten latentie?
Google beschrijft het systeem als "enkele seconden achter de spreker" blijvend. Onafhankelijke meting door LiveLingo Research op de lanceringsdag registreerde een mediaan eerste-audio latentie van 2.947 ms (p10–p90: 2.859–3.104 ms) over 120 testuitingen — een ongeveer 3-seconden constante spreekvertraging. Bron: livelingo.io/research/benchmark-2026.
Wanneer werd Gemini 3.5 Live Vertaling uitgebracht?
Google kondigde aan en begon met het uitrollen van Gemini 3.5 Live Vertaling op 9 juni 2026, over de Gemini Live API en Google AI Studio (ontwikkelaars publieke preview), de Google Translate app op Android en iOS (wereldwijde uitrol vanaf die dag), en Google Meet (private preview voor geselecteerde Workspace klanten).
9. 9. Bronnen
- Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Google blog, 9 juni 2026. blog.google
- Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
- MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, 9 juni 2026. marktechpost.com
- LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, 9 juni 2026. livelingo.io/research/benchmark-2026