LiveLingoLiveLingoTry free

Gemini 3.5 Live Translate: Features, Grenzen, Funktionsweise (2026)

Google veröffentlichte Gemini 3.5 Live Translate am 9. Juni 2026 — ein Audio-Modell basierend auf Gemini 3 Pro, das Sprache-zu-Sprache-Übersetzung in über 70 Sprachen streamt, die Ausgangssprache automatisch erkennt und Ausgaben generiert, die Intonation, Tempo und Tonhöhe des Sprechers bewahren. Dieser Leitfaden erklärt, was es kann, welche Einschränkungen Googles eigene Modellkarte identifiziert, wie man Zugang erhält und wo es im Vergleich zu anderen Sprachübersetzungstools steht.

Vielfältige Fachkräfte in einem mehrsprachigen Videoanruf, mit kontinuierlich zwischen den Sprechern fließender übersetzter Sprache.

1. 1. Was Gemini 3.5 Live Translate ist

Gemini 3.5 Live Translate ist ein Streaming-Sprache-zu-Sprache-Übersetzungsmodell, das Google am 9. Juni 2026 ankündigte. Zwei Eigenschaften unterscheiden es von früheren Übersetzungsprodukten.

Erstens ist es Audio-zu-Audio statt der älteren Sprache-zu-Text-zu-Übersetzung-zu-Text-zu-Sprache-Pipeline. Das Modell akzeptiert gestreamtes Quell-Audio in 100-Millisekunden-Blöcken und produziert übersetzte Sprache als Ausgabe. Texttranskripte sind verfügbar, aber nur als Begleitfunktion der gesprochenen Ausgabe — es gibt keinen Streaming-Text-Modus und keine Sprecherzuordnung im übersetzten Audio.

Zweitens ist die generierte Stimme darauf ausgelegt, die Sprechprosodie zu bewahren. Googles Ankündigung beschreibt Ausgaben, die Intonation, Tempo und Tonhöhe des Sprechers beibehalten. In der Praxis erzeugt dies eine übersetzte Stimme, die wesentlich natürlicher klingt als eine generische Text-zu-Sprache-Engine, die eine Übersetzung vorliest — ein echter Vorteil gegenüber Sprachübersetzungssystemen, deren Audio-Ausgabe durch eine Standard-TTS-Schicht läuft.

Das Modell basiert auf Gemini 3 Pro. Laut der Gemini 3.5 Audio-Modellkarte, die von Google DeepMind veröffentlicht wurde, akzeptiert es Audio-Eingaben mit bis zu einem 128K-Token-Kontextfenster und produziert Audio + Text-Ausgaben bis zu 64K Token. Es erkennt automatisch über 70 Sprachen, einschließlich schneller Sprachwechsel zwischen Sprechern, obwohl diese Erkennung dokumentierte Schwächen hat (behandelt in Abschnitt 4).

Der Launch umfasst drei Produktoberflächen parallel: Entwicklerzugang über die Gemini Live API und Google AI Studio (öffentliche Vorschau ab 9. Juni 2026); Verbraucherzugang durch die Google Translate App auf Android und iOS, die global ab diesem Tag ausgerollt wird, mit einem neuen "Zuhörmodus" auf Android; und Unternehmenszugang durch Google Meet in privater Vorschau für ausgewählte Google Workspace-Kunden, wo es Meets Übersetzungsabdeckung von 5 Sprachen auf 70+ erweitert und über 2.000 Quell-/Zielkombinationen innerhalb eines einzigen Meetings unterstützt.

2. 2. Funktionsweise: Audio-zu-Audio-Architektur und Prosodiebewahrung

Drei architektonische Entscheidungen unterscheiden Gemini 3.5 Live Translate von früheren Streaming-Übersetzungssystemen.

Sprache-zu-Sprache, nicht Sprache-zu-Text-zu-Sprache

Traditionelle Pipelines leiten Audio durch ein Streaming-Sprache-zu-Text-Modell, speisen das Transkript in ein maschinelles Übersetzungsmodell und synthetisieren dann die Übersetzung durch ein separates Text-zu-Sprache-Modell. Jede Stufe fügt Latenz hinzu und sammelt Fehler an. Gemini 3.5 Live Translate fasst diese Schritte in ein Audio-Modell zusammen. Der Kompromiss: Die Ausgabe ist permanentes Audio, nicht editierbarer Text — sobald ein Wort gesprochen ist, kann es nicht mitten in der Äußerung revidiert werden.

Kontinuierliches Streaming, nicht gesprächsbasiert

Googles Ankündigung rahmt das Modell als eines ein, das "den Kompromiss zwischen dem Warten auf Kontext zur Qualitätsverbesserung und dem sofortigen Übersetzen zur Synchronisation mit dem Sprecher ausbalanciert." Frühere Verbraucherprodukte wie Google Translates vorheriger Konversationsmodus waren gesprächsbasiert: antippen, sprechen, warten bis das System die Übersetzung finalisiert und ausgibt, dann die andere Partei antippen lassen. Gemini 3.5 Live Translate gibt kontinuierlich übersetzte Sprache aus, während der Quellsprecher noch spricht, wobei Google eine Verzögerung von "wenigen Sekunden" beschreibt.

Prosodietransfer

Das Modell ist darauf ausgelegt, die stimmlichen Eigenschaften des Quellsprechers — Intonation, Tempo, Betonung, Tonhöhe — in das übersetzte Audio zu übertragen. Dies ist der hauptsächliche technische Grund, warum die Ausgabe natürlich statt robotisch klingt. Es ist auch die Quelle der Stimmkonsistenz-Einschränkungen, die Googles Modellkarte offenlegt (Abschnitt 4).

Auf der Entwickleroberfläche verwendet jede Sitzung rohes 16-Bit-PCM-Audio bei 16 kHz Mono als Eingabe und produziert 24 kHz Mono-PCM-Audio als Ausgabe, gesendet in 100-Millisekunden-Blöcken. Alles generierte Audio trägt Googles SynthID-Wasserzeichen — eine unmerkliche Signatur, die in die Wellenform eingewoben ist und nachgelagerten Systemen ermöglicht, das Audio als maschinell generiert zu identifizieren.

Smartphone mit einer Streaming-Sprachübersetzungsschnittstelle mit Audiowellenformen und Sprachauswahl.

3. 3. Wo Gemini 3.5 Live Translate am stärksten ist

Fünf Produktstärken zeigen sich sofort beim Vergleich von Gemini 3.5 Live Translate mit seinen Konkurrenten.

Natürlich klingende übersetzte Sprache. Die prosodiebewahrende Stimme ist der klarste Vorteil gegenüber Sprachübersetzungssystemen, deren Audio-Ausgabe durch eine generische TTS-Engine läuft. Wenn Sie eine Sprachübersetzungs-App verwendet haben, deren übersetztes Audio wie ein flacher Erzähler klingt, der eine Wortkette vorliest, ist der Kontrast sofort spürbar. Gemini 3.5 Live Translate ist hier wesentlich besser, und der Unterschied ist beim ersten Satz hörbar.

Audio-zu-Audio-Einfachheit. Der Bau einer Sprachübersetzungsanwendung bedeutete traditionell die Verkettung eines Streaming-STT-Modells (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), eines Übersetzungsmodells und einer TTS-Engine — und die Verwaltung der partiellen Ausgabesemantik jeder Stufe. Gemini 3.5 Live Translate ersetzt diese Kette durch einen API-Aufruf und vereinfacht sowohl den Anwendungscode als auch die Fehleroberfläche.

Automatische Spracherkennung im großen Maßstab. 70+ Sprachen automatisch erkannt, ohne dass der Benutzer vorab ein Sprachpaar einstellen muss. Googles Positionierung betont Anwendungsfälle wie Mehrparteien-Meetings, wo Sprecher mitten im Gespräch die Sprache wechseln.

Verbreitung. Direkt in die Google Translate-Verbraucher-App und Google Meet integriert. Für Endnutzer sind die Installations- und Entdeckungskosten nahezu null — sie haben die App bereits. Für Meet-Kunden kommt die Übersetzung als Feature-Schalter innerhalb eines bereits genutzten Workflows.

Wasserzeichenausgabe. SynthID-Wasserzeichen machen die generierte Sprache als KI-generiert identifizierbar für nachgelagerte Compliance-Anwendungsfälle, was in regulierten Branchen nützlich ist, die KI-generierten Inhalt verfolgen müssen.

4. 4. Was Googles eigene Modellkarte als Einschränkungen zugibt

Die Gemini 3.5 Audio-Modellkarte, die von Google DeepMind veröffentlicht wurde, dokumentiert spezifische bekannte Einschränkungen von Gemini 3.5 Live Translate. Direktes Zitat aus der Karte:

Spracherkennung

"Die Spracherkennung kann bei nicht-muttersprachlichen Akzenten, ähnlichen Sprachen oder schnellen Sprachwechseln Schwierigkeiten haben." Praktische Auswirkung: Wenn ein Sprecher einen starken Akzent hat, oder die Quellsprache einer verwandten Sprache nahesteht (Portugiesisch vs. Spanisch, Norwegisch vs. Schwedisch), oder das Gespräch schnell die Sprachen wechselt, kann der Detektor die falsche Quellsprache wählen und entsprechend übersetzen.

Stimmkonsistenz in Mehrsprechersitzungen

"Stimmen können inkonsistent sein, und Stimmen können nach langen Pausen wechseln, das Geschlecht ändern oder bei schnellen Mehrsprechersitzungen bei einer Stimme hängenbleiben." Dies ist die praktisch bedeutsamste Einschränkung für viele Anwendungsfälle. In einem Meeting mit mehreren Sprechern, die schnell abwechseln, kann das Modell alle übersetzte Ausgabe in einer Stimme produzieren — wodurch die Sprecherzuordnung verloren geht, auf die Zuhörer angewiesen sind, um dem Gespräch zu folgen.

Rauschfilterung

"Entwickelt, um Hintergrundgeräusche herauszufiltern, aber nicht alle Hintergrundaudio wird möglicherweise ignoriert." Reale Umgebungen werden unter bestimmten Bedingungen immer noch durchsickern.

Übersetzungsmodus-Beschränkungen (Entwickler-API)

Laut Launch-Berichterstattung unter Berufung auf Googles Entwicklerdokumentation "wird Texteingabe im Übersetzungsmodus nicht unterstützt" und das Modell "lässt Tool-Nutzung und Systemanweisungen in diesem Modus fallen." Für Entwickler ist die Übersetzungs-API ein beschränkter Bereich — Sie können keinen Text senden, Sie können das breitere Gemini-Tool-Ökosystem nicht nutzen, und Sie können keine System-Prompts einschleusen. Übersetzung rein, Übersetzung raus.

5. 5. Unabhängige Messungen aus dem LiveLingo 2026 Benchmark

LiveLingo Research evaluierte Gemini 3.5 Live Translate an seinem Launch-Tag (9. Juni 2026) gegen dasselbe Protokoll, das für den ursprünglichen Benchmark von Google Cloud STT v2 + Translation v3, Azure Speech Translation und Whisper-large + GPT-4o-mini verwendet wurde. Der vollständige Nachtrag ist veröffentlicht unter livelingo.io/research/benchmark-2026#comprehension-gemini-live; die Schlagzeilenzahlen sind unten.

Verständnistreue-Gesamtwert: 4,93 / 5 über 120 Äußerungen und vier Sprachpaare (en→es, en→zh-CN, en→ja, en→de). Dies ist das stärkste Ergebnis unter den vier konkurrierenden Systemen im Benchmark; der nächstbeste Wert ist 4,77 (Google Cloud Translation v3).

Erste-Audio-Latenz: Median 2.947 ms vom Sprachbeginn bis zum ersten übersetzten Audio (p10–p90: 2.859–3.104 ms). Dies ist eine konstante ~3-Sekunden-Sprechverzögerung, konsistent mit Googles "wenige Sekunden dahinter"-Rahmen.

Ausgabe ist nur übersetzte Sprache. Die API hat keinen Streaming-Text-Modus und keine Pro-Sprecher-Zuordnung. Texttranskripte sind als Begleitfunktion zur gesprochenen Ausgabe verfügbar. Gesprochene Ausgabe kann nach der Ausgabe nicht revidiert werden.

Sprachwechsel-Audio. Bei einem Mandarin-Nachrichtenclip, der bei 86 Sekunden zu englischen Straßeninterviews wechselt, zeigte der LiveLingo-Benchmark, dass die Übersetzungsleistung bei jedem Durchlauf am Wechsel stoppt: Sprache, die bereits in der Ausgabesprache vorliegt, wird weder übersetzt noch transkribiert, sodass die letzten 34 Sekunden des Inhalts (~28% des Clips) für den Zuhörer stillschweigend verschwinden, ohne dass ein Fehler angezeigt wird. OpenAIs gpt-realtime-translate zeigt das gleiche Verhalten bei demselben Clip, und OpenAI dokumentiert das Überspringen von Sprache in der Ausgabesprache als beabsichtigt; es ist eine strukturelle Grenze aktueller Sprach-zu-Sprach-Übersetzer bei gemischtsprachigem Audio.

Faktische Umkehrung bei spät auflösender Syntax. Bei einem Mandarin-Geschäftssprech-Clip wurde ein Satz, der eine 15%ige Umsatzsteigerung beschrieb, auf Englisch als Ziel wiedergegeben, den Umsatz um 15% zu steigern. Dies ist die Fehlerklasse, die irreversible Audio-Festlegung mitten im Satz produziert, wenn die Quellsprache das bedeutungstragende Element (die Polarität, die Zeitreferenz, das Subjekt) bis spät im Satz aufschiebt.

Dies sind unabhängige Messungen, nicht Googles eigene Zahlen; Methodik und rohe Pro-Äußerungs-Daten sind im veröffentlichten Nachtrag.

6. 6. Wie man Zugang zu Gemini 3.5 Live Translate erhält

Verbraucher — Google Translate App

Aktualisieren Sie die Google Translate App auf die neueste Version auf Android oder iOS. Der Live Translate-Modus wird global ab dem 9. Juni 2026 ausgerollt — die Verfügbarkeit hängt vom Store-Rollout-Zeitplan in Ihrer Region ab. Auf Android ermöglicht ein neuer "Zuhörmodus", übersetzte Sprache direkt über den Ohrhörer Ihres Geräts zu hören.

Entwickler — Gemini Live API + Google AI Studio

Das Modell ist in öffentlicher Vorschau über die Gemini Live API und durch Google AI Studio verfügbar. Laut Launch-Berichterstattung sind die Integrationsbeschränkungen spezifisch: nur Audio-Eingabe (keine Texteingabe im Übersetzungsmodus), keine Tool-Nutzung oder Systemanweisungen, rohe 16-Bit-PCM 16 kHz Mono-Eingabe in 100 ms-Blöcken, 24 kHz PCM-Ausgabe. Siehe Google AI Studio für aktuelle Kontingente und Preise.

Unternehmen — Google Meet

Gemini 3.5 Live Translate ist ab dem 9. Juni 2026 in privater Vorschau für ausgewählte Google Workspace-Kunden. Wo aktiviert, erweitert es Meets Übersetzungsabdeckung von 5 Sprachen auf 70+ Sprachen und unterstützt 2.000+ Quell-/Zielkombinationen innerhalb eines einzigen Meetings. Die Verfügbarkeit ist rollierend, nicht universell.

7. 7. Wann Gemini 3.5 zu verwenden ist — und wann ein anderes Tool besser passt

Wann Gemini 3.5 Live Translate die richtige Wahl ist

  • Sie wollen übersetzte Sprache, nicht übersetzten Text. Die natürliche Sprachausgabe ist der größte Vorteil des Produkts.
  • Sie sind bereits in der Google Translate App oder Google Meet. Die Integration ist kostenfrei zu entdecken und zu nutzen.
  • Ihre Gespräche sind eins-zu-eins oder haben klare Gesprächsabwechslung mit Pausen zwischen Sprechern. Die Stimmkonsistenz-Einschränkungen, die Googles Modellkarte offenlegt, sind in diesen Kontexten schwächer.
  • Sie bauen eine Entwickleranwendung, wo die Vereinfachung der STT → MT → TTS-Kette in eine einzige API wichtiger ist als feinkörnige Kontrolle über jede Stufe.
  • Sie können ohne Sprecherzuordnung in der Audio-Ausgabe und ohne Streaming-Text-Transkripte leben.

Wann Sie möglicherweise ein anderes Tool bevorzugen

  • Sie benötigen Streaming-Text neben oder anstelle von Audio. Streaming-Text ist das, was die meisten Produktionsschnittstellen während Live-Untertitelung, Konferenzübersetzung und Barrierefreiheitsszenarien auf dem Bildschirm zeigen. Gemini 3.5 Live Translates Text ist nur als Begleitfunktion verfügbar.
  • Sie benötigen Pro-Sprecher-Zuordnung in der übersetzten Ausgabe. Die Modellkarten-Offenlegung "kann bei schnellen Mehrsprechersitzungen bei einer Stimme hängenbleiben" macht dies zu einem echten Risiko für Meetings.
  • Sie übersetzen Gespräche, wo Stabilität wichtiger ist als Ausdruckskraft. Audio-Ausgabe kann nicht mitten in der Äußerung revidiert werden, also kann bei Sprachen mit spät auflösender Syntax (Mandarin-Polarität am Satzende, japanisches Verb am Satzende) eine frühe Festlegung die Bedeutung umkehren. Der Benchmark-Nachtrag dokumentiert einen solchen Fall.
  • Sie benötigen übersetzte Telefonanrufe — das Wählen einer PSTN-Nummer mit Übersetzung auf der Leitung. Die Gemini Live API ist ein Baustein für Entwickler, kein Telefonanruf-Anbieter.

Ein ehrliches Zugeständnis. LiveLingo, das Produkt, das diesen Leitfaden veröffentlicht, passt bei den meisten dieser Dimensionen in die zweite Spalte: Streaming-Text + Audio-Ausgabe, Pro-Sprecher-Zuordnung, monotone gesteuerte Festlegung, sodass angezeigte Übersetzungen nie zurückgezogen werden, übersetzte ausgehende Telefonanrufe. LiveLingos Audio-Ausgabe verwendet jedoch die Standard-Text-zu-Sprache-Engine der Host-Plattform (iOS nativ auf Apple-Geräten), die weniger natürlich klingt als Gemini 3.5 Live Translates generierte Stimme. Das ist ein echter Vorteil, den Google heute ausgeliefert hat. Vergleichen Sie Spezifikationen nebeneinander unter livelingo.io/compare/google-translate oder gemessene Benchmark-Zahlen unter livelingo.io/research/benchmark-2026.

8. 8. Häufig gestellte Fragen

Was ist Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate ist ein Streaming-Sprache-zu-Sprache-Übersetzungsmodell, das Google am 9. Juni 2026 veröffentlichte. Es basiert auf Gemini 3 Pro, generiert übersetztes Audio, das Intonation, Tempo und Tonhöhe des Sprechers bewahrt, und erkennt automatisch 70+ Sprachen. Es ist für Entwickler über die Gemini Live API und Google AI Studio (öffentliche Vorschau), für Verbraucher über die Google Translate App auf Android und iOS und für ausgewählte Google Workspace-Kunden über Google Meet (private Vorschau) verfügbar.

Welche Sprachen unterstützt Gemini 3.5 Live Translate?

Über 70 Sprachen, automatisch erkannt. In Google Meet speziell erweitert dies die vorherige Abdeckung von 5 Sprachen auf 70+ Sprachen und unterstützt mehr als 2.000 Quell-/Zielkombinationen innerhalb eines einzigen Meetings.

Wie viel kostet Gemini 3.5 Live Translate?

Für Verbraucher ist die Google Translate App kostenlos. Entwicklerzugang über die Gemini Live API und Google AI Studio wird nach Googles Standard-API-Tarifen berechnet — prüfen Sie Google AI Studio für aktuelle Preise. Unternehmenszugang über Google Meet ist auf ausgewählte Google Workspace-Kunden in privater Vorschau ab dem 9. Juni 2026 beschränkt.

Wie handhabt Gemini 3.5 Live Translate mehrere Sprecher?

Laut der Gemini 3.5 Audio-Modellkarte, die von Google DeepMind veröffentlicht wurde: "Stimmen können inkonsistent sein, und Stimmen können nach langen Pausen wechseln, das Geschlecht ändern oder bei schnellen Mehrsprechersitzungen bei einer Stimme hängenbleiben." Praktisch: Eins-zu-eins-Gespräche und Gesprächsabwechslungen mit klaren Pausen funktionieren gut; schnelle Mehrsprecherszenarien sind eine dokumentierte Schwäche. Es gibt keine Pro-Sprecher-Zuordnung in der übersetzten Audio-Ausgabe.

Gibt Gemini 3.5 Live Translate Text aus?

Die primäre Ausgabe ist übersetzte Sprache. Texttranskripte sind verfügbar, aber nur als Begleitfunktion der gesprochenen Ausgabe — es gibt keinen Streaming-Text-Modus, und die Übersetzungsmodus-API akzeptiert keine Texteingabe.

Was ist Gemini 3.5 Live Translates gemessene Latenz?

Google beschreibt das System als "wenige Sekunden hinter dem Sprecher" bleibend. Unabhängige Messung durch LiveLingo Research am Launch-Tag zeichnete eine mediane Erste-Audio-Latenz von 2.947 ms (p10–p90: 2.859–3.104 ms) über 120 Testäußerungen auf — eine etwa 3-Sekunden konstante Sprechverzögerung. Quelle: livelingo.io/research/benchmark-2026.

Wann wurde Gemini 3.5 Live Translate veröffentlicht?

Google kündigte Gemini 3.5 Live Translate am 9. Juni 2026 an und begann den Rollout über die Gemini Live API und Google AI Studio (Entwickler öffentliche Vorschau), die Google Translate App auf Android und iOS (globaler Rollout ab diesem Tag) und Google Meet (private Vorschau für ausgewählte Workspace-Kunden).

9. 9. Quellen

  • Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Google blog, 9. Juni 2026. blog.google
  • Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
  • MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, 9. Juni 2026. marktechpost.com
  • LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, 9. Juni 2026. livelingo.io/research/benchmark-2026

Bereit, die Sprachbarriere zu durchbrechen?

Testen Sie LiveLingo kostenlos — 5 Minuten Echtzeit-Sprachübersetzung täglich, keine Kreditkarte erforderlich. Upgrade auf Pro für übersetzte Anrufe, KI-Meeting-Notizen und 300 Minuten pro Monat.

LiveLingo kostenlos testen
Gemini 3.5 Live Translate: Features, Grenzen & Funktionsweise 2026 | LiveLingo