1. 1. Was OpenAI für Live-Übersetzung 2026 anbietet
Drei verschiedene Oberflächen sind ab Juni 2026 verfügbar:
ChatGPT Voice — Live-Übersetzung (Verbraucher). Live-Übersetzung ist in ChatGPTs Voice-Modus integriert. Ein Nutzer tippt auf das Voice-Symbol im ChatGPT-App-Nachrichteneditor, bittet den Assistenten, zwischen Sprachen zu übersetzen, und das Modell übersetzt kontinuierlich während der gesamten Unterhaltung, bis es gestoppt oder gewechselt wird. Dies erfordert ein bezahltes ChatGPT-Abonnement — Plus, Teams, Enterprise oder Edu (OpenAI Verbraucherpreise; Plus kostet ~$20/Monat). Es gibt keinen kostenlosen Zugang zur Live-Übersetzung für Verbraucher in unseren Prüfungen vom 10. Juni 2026. Die Benutzeroberfläche ist konversationell statt einer dedizierten Übersetzer-UI; es gibt keine Quell-/Zielsprachauswahl, keine zweispaltige Quell- und Übersetzungstranskription und keine Anrufwahl.
`gpt-realtime-translate` (dediziertes API-Modell). Am 7. Mai 2026 veröffentlichte OpenAI ein speziell entwickeltes Streaming-Sprache-zu-Sprache-Übersetzungsmodell innerhalb der Realtime API. Laut OpenAIs Ankündigung wurde das Modell "mit tausenden Stunden professioneller Dolmetscher-Audio trainiert" und ist so konfiguriert, dass es "nur übersetzt und auf ausreichend Kontext wartet, bevor es Sprache produziert." Es unterstützt 70+ Eingabesprachen, die in 13 Ausgabesprachen übersetzt werden, und kostet $0,034 pro Minute Eingabe-Audio (OpenAI API-Preise). Dokumentierte Launch-Partner in OpenAIs Ankündigung: Deutsche Telekom (mehrsprachiger Kundensupport) und Vimeo (Echtzeit-Übersetzung von Produktschulungsvideos).
Whisper + GPT-4o-mini (DIY-Pipeline). Der ursprüngliche Entwicklerweg bleibt verfügbar. Whisper-large übernimmt Sprache-zu-Text (99 Sprachen laut OpenAIs Sprache-zu-Text-Leitfaden; $0,006/Min Audio auf OpenAIs API-Preisseite); GPT-4o-mini übernimmt die Übersetzung (Token-basierte Preise, gleiche Quelle). Zusammen unterstützen sie beliebige Sprachpaare — nicht die 13-Ausgabe-Obergrenze von `gpt-realtime-translate` — und geben dem Entwickler volle Kontrolle über Chunking, Prompting, Glossar-Handling und Ausgabeformat. Der Preis ist Engineering: Whispers API segmentiert kontinuierliche Sprache nicht in Äußerungsgrenzen, sodass der Entwickler Sprachaktivitätserkennung (VAD), Endpunkt-Logik, Halluzinations-Filterung, Streaming-UI und Telefonie bereitstellen muss.
2. 2. ChatGPT Voice — Live-Übersetzungsmodus (Verbraucher)
ChatGPT Voice mit Live-Übersetzung läuft innerhalb der Verbraucher-ChatGPT-App auf iOS, Android und im Web. Der Nutzer öffnet eine Voice-Sitzung und gibt dem Assistenten eine Übersetzungsanweisung wie "übersetze zwischen Englisch und Japanisch." Das Modell übersetzt dann kontinuierlich jede Äußerung der Sprecher in die gewünschte Zielsprache, über mehrere Gesprächsrunden hinweg, bis der Nutzer es stoppt, die Sprachen wechselt oder die Sitzung beendet.
Zugang erfordert ein bezahltes ChatGPT-Abonnement. Der erweiterte Voice-Modus mit Live-Übersetzung ist für ChatGPT Plus (~$20/Monat laut OpenAIs Verbraucherpreisseite), Teams, Enterprise und Edu-Nutzer verfügbar; der Zugang wird über das Voice-Symbol im Nachrichteneditor initiiert (wie dokumentiert auf chatgpt.com/features/voice und bestätigt durch Tom's Guide und 9to5Mac's Launch-Berichterstattung). Die Live-Übersetzungsfunktion ist in unseren Prüfungen vom 10. Juni 2026 nicht im kostenlosen Tarif verfügbar.
Was die Benutzeroberfläche bietet und was nicht. Die Benutzererfahrung ist eine konversationelle Voice-Sitzung — natürlich für einen persönlichen sprachübergreifenden Austausch oder ein kleines persönliches Gespräch. Sie enthält keine dedizierte Übersetzer-UI mit Quell-/Zielsprachauswahl, keine zweispaltige Quell- und Übersetzungstranskription, die man beim Zuhören lesen kann, keinen Sitzungsexport, kein Meeting-Memo oder ausgehende Telefonanrufwahl. Das Modell handhabt Sprachaktivität und Gesprächswechsel intern; der Nutzer hat keine explizite Kontrolle über Endpunkt-Timing, Glossar oder Prompt-Stil.
Zugrundeliegendes Modell und Verhalten. ChatGPT Voice's Live-Übersetzung basiert auf OpenAIs Realtime-Modellfamilie. Launch-Berichterstattung der Veröffentlichung vom 7. Mai 2026 (Tom's Guide, 9to5Mac, Slator) deutet darauf hin, dass die Verbraucher-Voice-Oberfläche dieselbe Realtime-Infrastruktur nutzt, die `gpt-realtime-translate` hostet, mit Verbraucher-App-Layer-Sprachaktivitätserkennung, Gesprächszustand und UI-Rendering darüber. OpenAIs öffentliche Modelldokumentation beschreibt ab dem 10. Juni 2026 keine separate Modellkarte für die Verbraucher-Voice-Übersetzungsvariante.
3. 3. gpt-realtime-translate — Das dedizierte API-Modell
`gpt-realtime-translate` ist OpenAIs erstes speziell entwickeltes Übersetzungsmodell, veröffentlicht am 7. Mai 2026 innerhalb der Realtime API. Es unterscheidet sich vom DIY Whisper + GPT-4o-mini Weg dadurch, dass die Streaming-Sprache-zu-Sprache-Transformation in einem einzigen Modell statt über zwei unabhängig gepromptete API-Aufrufe erfolgt.
Spezifikationen. Laut OpenAIs Entwickler-Cookbook: 70+ automatisch erkannte Eingabesprachen, 13 Ausgabesprachen. Preis $0,034 pro Minute Eingabe-Audio. Gibt übersetztes Audio plus Texttranskripte sowohl der Quellsprache als auch der übersetzten Ausgabe zurück — eine Transkript-Oberfläche, die der Verbraucher-ChatGPT-Voice-Modus nicht freilegt. Keine Sprecherzuordnung und keine Stimmauswahl. Gesprochene Ausgabe kann nach der Ausgabe nicht revidiert werden.
Training und Verhalten. OpenAI gibt an, dass das Modell "mit tausenden Stunden professioneller Dolmetscher-Audio trainiert wurde, was ihm hilft, nur zu übersetzen und auf ausreichend Kontext zu warten, bevor es Sprache produziert." In OpenAIs eigener Evaluation lieferte das Modell 12,5% niedrigere Wortfehlerquoten als jedes andere getestete Modell bei Hindi, Tamil und Telugu — die dokumentierte Indic-Sprachen-Stärke der Veröffentlichung.
Übersetzungsmodus-Einschränkungen. Laut OpenAI-Cookbook ist der Übersetzungsmodus-API-Aufruf eine eingeschränkte Oberfläche im Vergleich zur allgemeinen Realtime API-Nutzung. Texteingabe wird im Übersetzungsmodus nicht unterstützt, und Tool-Nutzung sowie Systemanweisungen sind deaktiviert — Eingabe ist Audio, Ausgabe ist Audio plus Transkripte, und das Modell verhält sich als dedizierter Dolmetscher statt als allgemeiner Sprachassistent.
4. 4. Whisper + GPT-4o-mini — Die DIY-Pipeline
Der Whisper + GPT-4o-mini Weg bleibt verfügbar und ist weiterhin die richtige Wahl für Entwickler, die Verhalten benötigen, das das dedizierte Übersetzungsmodell nicht bietet: beliebige Ausgabesprachen außerhalb der 13-Sprachen-Obergrenze, feinkörnige Prompt- und Glossar-Kontrolle, benutzerdefinierte Chunking-Strategien oder Integration mit anderen Realtime API-Fähigkeiten wie Tool-Nutzung.
Spezifikationen. Whisper-large unterstützt 99 Eingabesprachen für Sprache-zu-Text (OpenAI Sprache-zu-Text-Leitfaden) für $0,006 pro Minute Audio (OpenAI Preisseite). GPT-4o-mini übernimmt den Übersetzungsschritt mit Token-basierter Preisgestaltung (ebenfalls auf der OpenAI Preisseite). Die beiden Services sind unabhängige Netzwerkaufrufe; die Gesamtkosten pro Minute hängen von der Transkriptlänge ab, sind aber typischerweise niedriger als `gpt-realtime-translate` für englische Zielsprache und höherer Engineering-Aufwand.
Was der Entwickler bereitstellen muss. Produktive Echtzeit-Sprachübersetzung auf Basis von Whisper + GPT-4o-mini erfordert die folgenden Komponenten, die OpenAI nicht liefert:
- Sprachaktivitätserkennung (VAD). Whispers API liefert Transkription auf abgeschlossenen Audio-Chunks, segmentiert aber kontinuierliche Sprache nicht in Äußerungsgrenzen; der Entwickler stellt eine separate VAD bereit, um zu entscheiden, wann jeder Chunk gesendet wird. Ohne sie gibt es kein Signal dafür, wann eine Äußerung endet.
- Endpunkt-Logik. Entscheiden, ob auf mehr Audio gewartet wird (niedrigere Latenz, mehr Revisionen) oder früh committet wird (höhere Latenz, weniger Revisionen). Der Kompromiss definiert die Benutzererfahrung.
- Halluzinations-Filterung. Whisper halluziniert bekanntermaßen englischen Fülltext bei kurzen Clips — häufige Artefakte sind "Thanks for watching!" und "Subscribe!", die YouTube-Inhalten in seinem Trainingskorpus zugeschrieben werden; siehe die openai/whisper GitHub-Diskussion über Halluzinationen bei kurzen Clips. Produktive Deployments erfordern Filterung dieser.
- Streaming-UI-Primitive. Ein Gated-Commit-Overlay, damit angezeigter Text nicht zurückgezogen wird, Akkumulation partieller Chunks, Scroll-Verhalten und die Quell- vs. Übersetzungsanzeige.
- Telefonie-Integration für Telefonanruf-Nutzung (Twilio, Telnyx oder ähnlich), einschließlich bidirektionaler Audio-Brücke und Compliance für Anrufaufzeichnungs-Offenlegung je Jurisdiktion.
- Kostenüberwachung + Rate-Limit-Handling. Bei anhaltender Nutzung können die Kosten pro Minute ein Pauschalabonnement übersteigen, und Account-Rate-Limits erfordern Backoff-Strategien.
5. 5. Wie sie bei unabhängiger Messung abschneiden
Was wir gemessen haben (und was nicht). Die folgenden Zahlen gelten für den rohen `gpt-realtime-translate` Realtime API-Endpunkt, programmatisch über das Python SDK zugegriffen, mit denselben Energie-VAD-Äußerungsgrenzen, die einheitlich auf jedes API-Tier-System im LiveLingo-Benchmark angewendet wurden. Wir haben die ChatGPT Voice Verbraucher-App nicht separat gemessen. ChatGPT Voice basiert auf derselben Realtime-Infrastruktur, aber die Verbraucheroberfläche fügt ihre eigene clientseitige VAD, Gesprächszustand, UI-Rendering hinzu und kann serverseitige Glättung anwenden, auf die wir keinen programmatischen Zugriff haben. Ein ChatGPT Voice-Nutzer kann andere wahrgenommene Latenz, Lag-Drift und Code-Switching-Verhalten sehen als die API-Tier-Zahlen berichten. Wo dieser Abschnitt spezifische Verhalten zitiert (Drift, Code-Switch-Stille), behandeln Sie sie als Entwicklererfahrungs-Untergrenze auf dem Realtime API-Endpunkt, nicht als ChatGPT-Voice-Verbraucher-Obergrenze. Die Whisper + GPT-4o-mini DIY-Pipeline-Zahlen sind ähnlich API-Tier — sie spiegeln wider, was ein Entwickler nach dem Zusammenbau einer naiven Baseline-Pipeline erlebt, nicht ein handoptimiertes Produktionssystem.
Reproduzierbarkeit. Jede Zahl in diesem Abschnitt reproduziert aus denselben drei 120-Sekunden-VOA-Public-Domain-Audio-Clips, demselben Realtime API-Endpunkt und demselben Python-Harness, der für den ursprünglichen Vier-System-Benchmark verwendet wurde. Das Audio (`audio.zip`), rohe Per-Äußerungs-JSON (`openai-realtime-results.json`) und die Methodik sind veröffentlicht auf livelingo.io/research/benchmark-2026.
gpt-realtime-translate — gemessenes Verhalten
Schnellstes erstes Audio aller getesteten Systeme. Median 711 ms vom Sprachbeginn bis zum ersten übersetzten Audio über alle 120 evaluierten Sitzungen (p10–p90: 485–1.012 ms). Zum Vergleich: Gemini 3.5 Live Translate maß ~2,9 s bei derselben Metrik — `gpt-realtime-translate` ist etwa viermal schneller zur ersten Ausgabe. Geschwindigkeit ist die echte Stärke dieses Modells.
Verständnis-Treue-Komposit: 4,53 / 5. Bewertet von zwei unabhängigen Frontier-LLM-Richtern (GPT-4o, Gemini 2.5 Flash) mit derselben Rubrik und denselben Richter-Prompts wie der ursprüngliche Vier-System-Benchmark, über 120 Äußerungen und vier Sprachpaare (en→es, en→zh-CN, en→ja, en→de). Dies war der niedrigste Score der sechs gemessenen Systeme. Kopf-an-Kopf gegen LiveLingo auf Zellebene: 4 Siege, 80 Unentschieden, 36 Niederlagen. Wiederkehrende Fehlerklassen: überflüssige Phrasen am Äußerungsbeginn vorangestellt, Bedeutungsumkehrungen (z.B. "I was stressed about work" als Wunsch, gestresst zu sein, dargestellt) und Eigennamen durch Gattungsnamen ersetzt.
Sechs-System-Vergleich im LiveLingo 2026 Benchmark (120 Äußerungen, vier Sprachpaare, 2-Richter-Komposit). Rohdaten: livelingo.io/research/benchmark-2026.
| System | Verständnis (0–5) | Erstes Audio / TTF-Latenz | Ausgabeoberfläche |
|---|---|---|---|
| LiveLingo | 4,96 | 1.518 ms (committetes Transkript) | Streaming-Text + Audio |
| Gemini 3.5 Live Translate | 4,93 | ~3.100 ms (TTF) | Audio (Text-Sidecar) |
| Google Cloud STT v2 + Translate v3 | 4,77 | ~26.736 ms (Finales Transkript) | Transkript |
| Azure Speech Translation | 4,65 | ~4.755 ms (Finales Transkript) | Transkript |
| Whisper + GPT-4o-mini (DIY) | 4,63 | 2.720 ms (Finales Transkript) | Transkript |
| **OpenAI gpt-realtime-translate** | **4,53** | **~3.800 ms (TTF)** | **Audio + Transkript** |
Lag-Drift bei kontinuierlicher Sprache. Geschwindigkeit zur ersten Ausgabe ist exzellent, aber bei längerem Audio fällt die übersetzte Stimme progressiv hinter den Sprecher zurück, da sich unübersetzter Rückstand ansammelt. Gemessen vom Ende jeder Quell-Äußerung bis zur Ankunft der übersetzten Sprache für diese Äußerung: Median 3,8 s, driftend bis zu 20,3 s hinter dem dichten pt→en VOA-Clip. Dies ist der Kompromiss, den die Audio-zu-Audio-Architektur schafft — Sprachausgabe ist natürlich durch die Sprechgeschwindigkeit der synthetisierten Stimme begrenzt, sodass das Modell nicht schneller als menschliches Tempo "aufholen" kann.
Code-Switch-Sprache-Fehler. Laut OpenAIs Entwicklerdokumentation kann das Modell Sprache überspringen, die bereits in der Ausgabesprache ist. Beim zh→en VOA-Clip im LiveLingo-Benchmark zeigte sich dies als Stille bei der 86-Sekunden-Marke, als die Quelle ins Englische wechselte — das Modell verstummte und gab den englischen Inhalt nicht an die übersetzte Ausgabe weiter. Gemini 3.5 Live Translate zeigt dieselbe Lücke beim selben Clip; dies ist ein Klassenproblem für Audio-zu-Audio-dedizierte Übersetzungsmodelle (siehe Hinweis unten). Pipelines, die ein Streaming-Texttranskript bereitstellen, können Code-Switch-Inhalte stattdessen an das angezeigte Transkript weiterleiten, anstatt sie fallen zu lassen.
Ausgabeoberflächen. Übersetztes Audio plus Texttranskripte sowohl der Quelle als auch der Ausgabe — näher an einer transkript-ersten Produktoberfläche als Gemini 3.5 Live Translate's nur-Audio-API. Keine Sprecherzuordnung. Keine Stimmauswahl. Gesprochene Ausgabe kann nach der Ausgabe nicht revidiert werden.
Audio-zu-Audio ist eine Klasse mit gemeinsamen Einschränkungen. Die Verhalten in diesem Abschnitt sind nicht einzigartig für `gpt-realtime-translate`. Googles Gemini 3.5 Live Translate und jedes andere aktuelle Sprache-zu-Sprache-Audio-zu-Audio-Übersetzungsmodell erbt dieselbe Klasse von Kompromissen: (1) Ausgabetempo-Lag-Drift bei kontinuierlicher Sprache, weil übersetztes Audio durch Sprechgeschwindigkeit begrenzt ist und nicht schneller als menschliches Tempo aufholen kann; (2) Code-Switch-Stille, weil das Modell so konfiguriert ist, dass es Sprache überspringt, die bereits in der Ausgabesprache ist; (3) keine Inline-Sprecherzuordnung im synthetisierten Audio; (4) irreversible Mid-Äußerungs-Commits, weil gesprochenes Audio nicht zurückgezogen werden kann, wie angezeigter Text es kann. Systeme, die ein Streaming-Texttranskript bereitstellen — einschließlich OpenAIs DIY Whisper + GPT-4o-mini Route und Streaming-Transkript-Übersetzungsprodukte wie LiveLingo — vermeiden (2), (3) und (4) auf Kosten von entweder Zwei-Modell-Latenz-Overhead oder einer anderen Ausgabemodalität. Behandeln Sie dies als Kategorie-Einsicht, nicht als Kritik an einem Modell.
Whisper + GPT-4o-mini DIY-Pipeline — gemessenes Verhalten
Bei denselben drei 120-Sekunden-VOA-Clips maß eine naive Baseline Whisper-large + GPT-4o-mini Pipeline eine mediane Finale Transkript-Latenz von 2.720 ms (95% CI 1.880–3.396, n=28) und emittierte ≈22 Normalisierte Löschungen pro 120-Sekunden-Clip (Token-Revisionen über partielle Chunks). Verständnis-Treue-Komposit war 4,63 / 5 über dieselben vier Sprachpaare.
Bemerkenswert: Die DIY-Pipeline erzielte höheres Verständnis als das dedizierte `gpt-realtime-translate` Modell (4,63 vs 4,53). Das dedizierte Modell ist schneller zur ersten Ausgabe und einfacher zu integrieren, aber bei diesem Benchmark liest die ältere Zwei-Modell-Pipeline Quellbedeutung etwas genauer. Die Unterschiede liegen innerhalb von ~0,10 auf einer 5-Punkte-Skala und spiegeln verschiedene Design-Prioritäten wider — Geschwindigkeit und operative Einfachheit für das dedizierte Modell, Transkript-Genauigkeit und Prompt-Kontrolle für die Pipeline.
6. 6. Was OpenAIs eigene Dokumentation offenlegt
Aussagen direkt aus OpenAIs Ankündigung vom 7. Mai 2026 und Entwicklerdokumentation:
- Trainingskorpus. "Trainiert mit tausenden Stunden professioneller Dolmetscher-Audio, was ihm hilft, nur zu übersetzen und auf ausreichend Kontext zu warten, bevor es Sprache produziert." (Quelle: OpenAI Ankündigung.)
- Sprachabdeckung. 70+ Eingabesprachen in 13 Ausgabesprachen. (Quelle: OpenAI Cookbook.)
- Indic-Sprachen-Stärke. "12,5% niedrigere Wortfehlerquoten als jedes andere getestete Modell" bei Hindi, Tamil und Telugu in OpenAIs eigener Evaluation. (Quelle: OpenAI Ankündigung.)
- Code-Switching-Verhalten. OpenAIs Dokumentation gibt an, dass das Modell Sprache überspringen kann, die bereits in der Ausgabesprache ist — eine Design-Entscheidung, die Stille bei Code-Switch-Audio produziert.
- Modus-Einschränkungen. Im Übersetzungsmodus wird Texteingabe nicht unterstützt und Tool-Nutzung plus Systemanweisungen sind deaktiviert. Der Übersetzungsmodus-Aufruf ist eine eingeschränkte Oberfläche im Vergleich zur allgemeinen Realtime API.
- Ausgabeformat (Entwickler). Audio wird in rohem PCM mit chunked Streaming gesendet und empfangen. Siehe den Realtime API-Leitfaden für das genaue Format und Chunk-Größen-Anleitung.
- Preisgestaltung. $0,034 pro Minute Eingabe-Audio für `gpt-realtime-translate`. $0,006 pro Minute Audio für Whisper. GPT-4o-mini pro Token. ChatGPT Plus kostet etwa $20/Monat und ist der minimale bezahlte Tarif für ChatGPT Voice Live-Übersetzungszugang. (OpenAI API-Preise und ChatGPT Verbraucherpreise.)
- Dokumentierte Launch-Nutzer. Deutsche Telekom (mehrsprachiger Kundensupport) und Vimeo (Echtzeit-Übersetzung von Produktschulungsvideos). (Quelle: OpenAI Ankündigung.)
7. 7. Wann welche Oberfläche wählen — und wann ein anderes Tool passt
Wählen Sie ChatGPT Voice Live-Übersetzung wenn
- Sie bereits für ChatGPT Plus (oder Teams, Enterprise, Edu) bezahlen und kein weiteres Abonnement hinzufügen möchten.
- Ihr Anwendungsfall ein persönliches oder kleines persönliches Gespräch ist, statt eines Mehrparteien-Meetings, das angezeigte Transkripte benötigt.
- Sie eine konversationelle Benutzeroberfläche statt einer dedizierten Übersetzer-UI mit Quell-/Zielsprachauswahl und gespeichertem Transkript akzeptieren.
- Sie damit einverstanden sind, dass das Modell Sprachaktivität und Gesprächswechsel intern handhabt, ohne explizite Benutzerkontrolle.
Wählen Sie gpt-realtime-translate (Realtime API) wenn
- Sie eine Entwickleranwendung erstellen, bei der Zeit-bis-zum-ersten-übersetzten-Audio wichtiger ist als Verständnismargin.
- Ihre Ausgabesprachenliste in 13 Sprachen passt.
- Sie Indic-Sprachen-Zielgruppen bedienen (Hindi, Tamil, Telugu), wo OpenAIs eigene Evaluation 12,5% WER-Reduktion gegenüber Alternativen berichtet.
- Sie die verbraucherorientierte Schicht (UI, Telefonie, Fehlerbehandlung, Code-Switch-Fallbacks) auf OpenAIs API aufbauen können.
- Sie den Geschwindigkeit-vs-Verständnis-Kompromiss akzeptieren (4,53/5 Verständnis vs 4,63 für die DIY-Pipeline beim selben Benchmark) im Austausch für einen API-Aufruf statt zwei.
Wählen Sie Whisper + GPT-4o-mini DIY wenn
- Sie beliebige Ausgabesprachen außerhalb der 13-Sprachen-Obergrenze benötigen.
- Sie volle Prompt- und Glossar-Kontrolle für spezialisiertes Vokabular oder Stil-Einschränkungen benötigen.
- Sie Engineering-Kapazität für VAD, Endpunkt-Erkennung, Halluzinations-Filterung, Streaming-UI und Telefonie haben.
- Sie niedrigere Audio-Kosten pro Minute ($0,006 Whisper) wollen und Token-basierte GPT-4o-mini-Preise akzeptieren können.
- Sie Übersetzung mit der breiteren Realtime API-Fähigkeitsoberfläche (Tool-Nutzung, Systemanweisungen) integrieren möchten, die der dedizierte Übersetzungsmodus nicht freilegt.
Wo ein anderes Tool besser passen könnte
OpenAIs drei Oberflächen decken die meisten Live-Übersetzungsanwendungsfälle ab, aber jede lebt innerhalb einer spezifischen Form: ChatGPT Voice ist ein Chatbot mit Übersetzung, `gpt-realtime-translate` ist eine Entwickler-API, und Whisper + GPT-4o-mini ist ein Satz von Bausteinen. Eine dedizierte Übersetzer-App-Oberfläche — mit Streaming-Text + Audio-Ausgabe, die Sie beim Zuhören lesen können, Pro-Sprecher-Zuordnung, Gated-Commit-angezeigten Transkripten, die nie zurückgezogen werden, übersetzten ausgehenden Telefonanrufen und einem kostenlosen Tarif außerhalb eines Abonnement-Gates — ist eine andere Produktkategorie. LiveLingo (Herausgeber dieses Leitfadens) sitzt dort. Ehrlicher Kompromiss: LiveLingos Audio-Ausgabe läuft über die Standard-Text-zu-Sprache-Engine der Host-Plattform, sodass die gesprochene Stimme weniger ausdrucksstark ist als `gpt-realtime-translate`'s; ChatGPT Voice's konversationelle Benutzeroberfläche kann sich natürlicher anfühlen als eine dedizierte Übersetzer-UI für gelegentliches Hin und Her. Nebeneinander-Spezifikationen: /de/compare/chatgpt-translation. Benchmark-Zahlen: /de/research/benchmark-2026.
8. 8. Häufig gestellte Fragen
Welche Live-Übersetzung bietet OpenAI 2026?
OpenAI liefert Live-Übersetzung über drei Oberflächen ab Mitte 2026. ChatGPT Voice enthält einen Live-Übersetzungsmodus für zahlende Abonnenten (Plus, Teams, Enterprise, Edu). `gpt-realtime-translate` ist ein dediziertes Streaming-Sprache-zu-Sprache-Übersetzungsmodell in der Realtime API, veröffentlicht am 7. Mai 2026, für $0,034 pro Minute Eingabe-Audio mit 70+ Eingabesprachen und 13 Ausgabesprachen. Eine DIY-Pipeline aus Whisper-large (Sprache-zu-Text) und GPT-4o-mini (Übersetzung) bleibt für Entwickler verfügbar, die beliebige Sprachpaare und volle Kontrolle über den Stack wollen.
Wie funktioniert ChatGPT Voice Live-Übersetzung?
Tippen Sie auf das Voice-Symbol im ChatGPT-App-Nachrichteneditor, dann bitten Sie den Assistenten zu übersetzen — z.B. "übersetze zwischen Englisch und Japanisch." Das Modell übersetzt weiter über Gesprächsrunden hinweg, bis es gestoppt oder die Sprachen gewechselt werden. Verfügbar für zahlende ChatGPT-Abonnenten (Plus ~$20/Monat, Teams, Enterprise oder Edu). Es ist eine konversationelle Sprachoberfläche, keine dedizierte Übersetzer-UI mit Quell-/Zielsprachauswahl, Quell- und Übersetzungstranskriptpaaren oder Anrufwahl.
Was ist gpt-realtime-translate?
OpenAIs dediziertes Streaming-Sprache-zu-Sprache-Übersetzungsmodell in der Realtime API, veröffentlicht am 7. Mai 2026. Trainiert mit tausenden Stunden professioneller Dolmetscher-Audio. 70+ Eingabesprachen → 13 Ausgabesprachen. Preis $0,034 pro Minute Eingabe-Audio. Gibt übersetztes Audio plus Texttranskripte sowohl der Quelle als auch der Ausgabe zurück. Dokumentierte Unternehmensnutzer beim Launch sind Deutsche Telekom und Vimeo.
Können Sie immer noch einen Live-Übersetzer mit Whisper und GPT-4o-mini bauen?
Ja. Die DIY-Pipeline (Whisper-large $0,006/Min Audio, 99 Quellsprachen; GPT-4o-mini pro Token) bleibt der flexibelste OpenAI-Weg — sie unterstützt beliebige Sprachpaare und gibt volle Kontrolle über Chunking, Prompting und Ausgabeformat. Der Kompromiss sind Engineering-Kosten: Whispers API segmentiert kontinuierliche Sprache nicht in Äußerungsgrenzen, sodass der Entwickler VAD, Endpunkt-Logik, Halluzinations-Filterung, Streaming-UI und Telefonie bauen muss.
Was sind gpt-realtime-translate's gemessene Latenz und Verständnis?
Im LiveLingo Research Benchmark-Addendum (10. Juni 2026) hatte `gpt-realtime-translate` die schnellste erste Audio-Latenz aller getesteten Systeme — Median 711 ms vom Sprachbeginn bis zum ersten übersetzten Audio. Verständnis-Treue-Komposit war 4,53 / 5, der niedrigste der sechs gemessenen Systeme. Bei kontinuierlicher Sprache fiel die übersetzte Stimme hinter den Sprecher zurück — Median 3,8 s, driftend bis zu 20,3 s bei dichtem Audio. Wiederkehrende Fehler: überflüssige Einfügungen, Bedeutungsumkehrungen, Eigenname-Substitutionen. Quelle: livelingo.io/research/benchmark-2026.
Spiegeln diese Zahlen die ChatGPT Voice Benutzererfahrung wider?
Nein. Die gemessenen Zahlen gelten für den rohen `gpt-realtime-translate` Realtime API-Aufruf. ChatGPT Voice basiert auf derselben Realtime-Infrastruktur, aber die Verbraucher-App fügt ihre eigene clientseitige VAD, Gesprächszustand, UI-Rendering hinzu und kann serverseitige Glättung anwenden, die nicht separat gemessen wurde. Ein ChatGPT Voice-Nutzer kann andere wahrgenommene Latenz, Lag-Drift und Code-Switching-Verhalten sehen als die API-Tier-Zahlen berichten. Behandeln Sie den veröffentlichten Benchmark als Entwicklererfahrungs-Untergrenze auf dem Realtime API-Endpunkt, nicht als ChatGPT-Voice-Nutzer-Obergrenze.
Wie handhabt OpenAI Code-Switching?
Laut OpenAIs Entwicklerdokumentation kann `gpt-realtime-translate` Sprache überspringen, die bereits in der Ausgabesprache ist. Im LiveLingo-Benchmark zeigte sich dies als Stille beim zh→en VOA-Clip bei der 86-Sekunden-Marke, als die Quelle ins Englische wechselte. Gemini 3.5 Live Translate zeigt dieselbe Lücke beim selben Clip. Streaming-Text-Transkript-Systeme, die Zielsprachen-Sprache an das angezeigte Transkript weiterleiten, haben diese Lücke nicht.
Wann sollten Sie welche OpenAI-Oberfläche wählen?
ChatGPT Voice Live-Übersetzung, wenn Sie bereits für ChatGPT Plus oder höher bezahlen und eine konversationelle Benutzeroberfläche akzeptieren. `gpt-realtime-translate`, wenn Sie eine Entwickleranwendung bauen, bei der Geschwindigkeit-zum-ersten-Audio wichtiger ist als angezeigte-Text-Stabilität, Ihre Ausgabesprachenliste in 13 passt und Sie die Verbraucheroberfläche darüber bauen können. Whisper + GPT-4o-mini DIY, wenn Sie beliebige Ausgabesprachen, volle Prompt- und Glossar-Kontrolle, niedrigere Kosten pro Minute und Engineering-Kapazität für VAD, Endpunkt-Erkennung, Halluzinations-Filterung, Streaming-UI und Telefonie benötigen.
9. 9. Quellen
- OpenAI. Advancing voice intelligence with new models in the API. OpenAI blog, 7. Mai 2026. openai.com
- OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. OpenAI Cookbook. developers.openai.com
- OpenAI Developers. Realtime and audio (Realtime API-Leitfaden). developers.openai.com
- OpenAI. ChatGPT Voice mode (Verbraucher-Features-Seite). chatgpt.com
- OpenAI. API pricing (Pro-Modell-Preise). openai.com/api/pricing
- OpenAI. ChatGPT pricing (Verbraucher-Tarife). openai.com/chatgpt/pricing
- OpenAI. Speech-to-text guide (Whisper-Dokumentation). platform.openai.com
- Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time, 7. Mai 2026. tomsguide.com
- 9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak, 7. Mai 2026. 9to5mac.com
- Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT. slator.com
- openai/whisper. GitHub Discussions — hallucinations on short clips. github.com
- LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — OpenAI gpt-realtime-translate addendum, 10. Juni 2026. livelingo.io/research/benchmark-2026
- LiveLingo. LiveLingo vs ChatGPT: Real-Time Voice Translation Compared (2026). livelingo.io/compare/chatgpt-translation
Preise, Verfügbarkeit, Launch-Nutzer und Verbraucher-Tarif-Zugangsdetails wurden gegen die oben genannten Primärquellen am 10. Juni 2026 verifiziert. OpenAI kann Tarife, Preise, Sprachabdeckung und Modellverhalten ändern; konsultieren Sie die verlinkten Quellen für den aktuellen Stand, bevor Sie sich auf eine spezifische Zahl verlassen.