1. 1. Cosa Offre OpenAI per la Traduzione Live nel 2026
Tre interfacce distinte sono disponibili a giugno 2026:
ChatGPT Voice — traduzione live (consumer). La traduzione live è integrata nella modalità Voice di ChatGPT. L'utente tocca l'icona Voice nel compositore messaggi dell'app ChatGPT, chiede all'assistente di tradurre tra lingue, e il modello continua a tradurre durante tutta la conversazione finché non viene detto di fermarsi o cambiare. Richiede un abbonamento ChatGPT a pagamento — Plus, Teams, Enterprise, o Edu (pagina prezzi consumer OpenAI; Plus costa ~$20/mese). Non c'è accesso gratuito alla traduzione live nei nostri controlli al 10 giugno 2026. L'interfaccia è conversazionale piuttosto che un'UI dedicata per traduttore; non c'è selettore di coppia lingua sorgente/target, nessuna trascrizione a due colonne sorgente-e-tradotta, e nessuna composizione chiamate.
`gpt-realtime-translate` (modello API dedicato). Il 7 maggio 2026, OpenAI ha rilasciato un modello di traduzione speech-to-speech streaming appositamente costruito all'interno dell'API Realtime. Secondo l'annuncio di OpenAI, il modello è stato "addestrato su migliaia di ore di audio di interpreti professionali" ed è configurato per "rimanere solo-traduzione e aspettare abbastanza contesto prima di produrre parlato." Supporta 70+ lingue di input tradotte in 13 lingue di output ed è prezzato a $0.034 per minuto di audio di input (prezzi API OpenAI). Partner di lancio documentati nell'annuncio OpenAI: Deutsche Telekom (supporto clienti multilingue) e Vimeo (traduzione in tempo reale di video educativi sui prodotti).
Whisper + GPT-4o-mini (pipeline fai-da-te). Il percorso sviluppatore originale rimane disponibile. Whisper-large gestisce speech-to-text (99 lingue per la guida speech-to-text di OpenAI; $0.006/min audio nella pagina prezzi API OpenAI); GPT-4o-mini gestisce la traduzione (prezzi per token, stessa fonte). Combinati, supportano coppie di lingue arbitrarie — non il limite di 13 output di `gpt-realtime-translate` — e danno allo sviluppatore controllo completo su chunking, prompting, gestione glossario, e formato output. Il costo è ingegneristico: l'API di Whisper non segmenta il parlato continuo in confini di enunciato, quindi lo sviluppatore fornisce rilevamento attività vocale (VAD), logica di endpoint, filtraggio allucinazioni, UI streaming, e telefonia.
2. 2. ChatGPT Voice — Modalità Traduzione Live (Consumer)
ChatGPT Voice con traduzione live funziona all'interno dell'app consumer ChatGPT su iOS, Android, e web. L'utente apre una sessione Voice e dà all'assistente un'istruzione di traduzione come "traduci tra inglese e giapponese." Il modello poi traduce ogni enunciato del parlante nella lingua target richiesta continuamente, attraverso i turni, finché l'utente non gli dice di fermarsi, cambiare lingue, o terminare la sessione.
L'accesso richiede un abbonamento ChatGPT a pagamento. La modalità Voice aggiornata con traduzione live è disponibile per utenti ChatGPT Plus (~$20/mese per la pagina prezzi consumer OpenAI), Teams, Enterprise, ed Edu; l'accesso viene iniziato tramite l'icona Voice nel compositore messaggi (come documentato su chatgpt.com/features/voice e confermato dalla copertura di lancio di Tom's Guide e 9to5Mac). La funzione traduzione live non è disponibile nel tier gratuito nei nostri controlli al 10 giugno 2026.
Cosa ti dà l'interfaccia, e cosa non dà. L'esperienza utente è una sessione Voice conversazionale — naturale per uno scambio cross-linguistico uno-a-uno o una piccola conversazione di persona. Non include un'UI traduttore dedicata con selettore lingua sorgente/target, una coppia di trascrizioni a due colonne sorgente-e-tradotta che puoi leggere mentre ascolti, esportazione sessione, memo-riunione, o composizione chiamate in uscita. Il modello gestisce attività vocale e alternanza turni internamente; l'utente non ha controllo esplicito su timing endpoint, glossario, o stile prompt.
Modello sottostante e comportamento. La traduzione live di ChatGPT Voice è costruita sulla famiglia di modelli Realtime di OpenAI. La copertura di lancio del rilascio del 7 maggio 2026 (Tom's Guide, 9to5Mac, Slator) indica che l'interfaccia Voice consumer usa la stessa infrastruttura Realtime che ospita `gpt-realtime-translate`, con rilevamento attività vocale a livello consumer-app, stato conversazione, e rendering UI sopra. La documentazione pubblica del modello OpenAI non descrive una model card separata per la variante traduzione Voice consumer al 10 giugno 2026.
3. 3. gpt-realtime-translate — Il Modello API Dedicato
`gpt-realtime-translate` è il primo modello di traduzione appositamente costruito di OpenAI, rilasciato il 7 maggio 2026 all'interno dell'API Realtime. È distinto dal percorso fai-da-te Whisper + GPT-4o-mini in quanto la trasformazione speech-to-speech streaming avviene in un singolo modello piuttosto che attraverso due chiamate API indipendentemente promptate.
Specifiche. Per il cookbook sviluppatori di OpenAI: 70+ lingue di input auto-rilevate, 13 lingue di output. Prezzo $0.034 per minuto di audio di input. Restituisce audio tradotto più trascrizioni testuali sia del parlato sorgente che dell'output tradotto — una superficie di trascrizione che la modalità ChatGPT Voice consumer non espone. Nessuna attribuzione parlante e nessuna selezione voce. L'output parlato non può essere rivisto dopo essere stato emesso.
Addestramento e comportamento. OpenAI afferma che il modello è stato "addestrato su migliaia di ore di audio di interpreti professionali, che lo aiuta a rimanere solo-traduzione e aspettare abbastanza contesto prima di produrre parlato." Nella valutazione di OpenAI, il modello ha consegnato Word Error Rates del 12.5% più bassi di qualsiasi altro modello testato su hindi, tamil, e telugu — la forza documentata nelle lingue indiane del rilascio.
Vincoli modalità traduzione. Secondo il cookbook OpenAI, la chiamata API modalità-traduzione è una superficie vincolata rispetto all'uso generale dell'API Realtime. L'input testuale non è supportato in modalità traduzione, e uso strumenti e istruzioni sistema sono disabilitati — input è audio, output è audio più trascrizioni, e il modello si comporta come un interprete dedicato piuttosto che un assistente vocale generale.
4. 4. Whisper + GPT-4o-mini — La Pipeline Fai-da-Te
Il percorso Whisper + GPT-4o-mini rimane disponibile e continua ad essere la scelta giusta per sviluppatori che hanno bisogno di comportamenti che il modello di traduzione dedicato non fornisce: lingue di output arbitrarie fuori dal limite di 13 lingue, controllo fine-grained di prompt e glossario, strategie di chunking personalizzate, o integrazione con altre capacità dell'API Realtime come uso strumenti.
Specifiche. Whisper-large supporta 99 lingue di input per speech-to-text (guida speech-to-text OpenAI) a $0.006 per minuto di audio (pagina prezzi OpenAI). GPT-4o-mini gestisce il passo di traduzione con prezzi per token (anche nella pagina prezzi OpenAI). I due servizi sono chiamate di rete indipendenti; il costo totale per minuto dipende dalla lunghezza trascrizione ma è tipicamente più basso di `gpt-realtime-translate` per uso target-inglese, e sforzo ingegneristico più alto.
Cosa fornisce lo sviluppatore. La traduzione vocale in tempo reale di produzione sopra Whisper + GPT-4o-mini richiede i seguenti componenti, nessuno dei quali OpenAI fornisce:
- Rilevamento attività vocale (VAD). L'API di Whisper fornisce trascrizione su chunk audio completati ma non segmenta il parlato continuo in confini di enunciato; lo sviluppatore fornisce un VAD separato per decidere quando inviare ogni chunk. Senza di esso, non c'è segnale per quando un enunciato finisce.
- Logica endpoint. Decidere se aspettare più audio (latenza più bassa, più revisioni) o committare presto (latenza più alta, meno revisioni). Il compromesso definisce l'esperienza utente.
- Filtraggio allucinazioni. Whisper è ampiamente riportato per allucinare testo riempitivo inglese su clip brevi — artefatti comuni includono "Thanks for watching!" e "Subscribe!", attribuiti a contenuto YouTube nel suo corpus di addestramento; vedi la discussione GitHub openai/whisper delle allucinazioni su clip brevi. I deployment di produzione richiedono filtraggio di questi.
- Primitive UI streaming. Un overlay gated-commit così il testo visualizzato non si ritrae, accumulo di chunk parziali, comportamento scroll, e il display sorgente-vs-tradotto.
- Integrazione telefonia per uso chiamate telefoniche (Twilio, Telnyx, o simili), incluso bridging audio bidirezionale e conformità disclosure registrazione chiamate per giurisdizione.
- Monitoraggio costi + gestione rate-limit. A uso sostenuto, il costo per minuto può superare un abbonamento fisso, e i rate limit per account richiedono strategie di backoff.
5. 5. Come Performano su Misurazione Indipendente
Cosa abbiamo misurato (e cosa non abbiamo). I numeri sotto sono per l'endpoint API Realtime `gpt-realtime-translate` grezzo, accessato programmaticamente tramite Python SDK, con gli stessi confini di enunciato energy-VAD applicati uniformemente a ogni sistema tier-API nel benchmark LiveLingo. Non abbiamo misurato l'app consumer ChatGPT Voice separatamente. ChatGPT Voice è costruito sulla stessa infrastruttura Realtime ma la superficie consumer aggiunge il proprio VAD lato client, stato conversazione, rendering UI, e può applicare smoothing lato server a cui non abbiamo accesso programmatico. Un utente ChatGPT Voice può vedere latenza percepita diversa, drift lag, e comportamento code-switching rispetto ai numeri tier-API riportati. Dove questa sezione cita comportamenti specifici (drift, silenzio code-switch), trattali come il floor esperienza-sviluppatore sull'endpoint API Realtime, non il ceiling consumer ChatGPT-Voice. I numeri pipeline fai-da-te Whisper + GPT-4o-mini sono similmente tier-API — riflettono cosa uno sviluppatore sperimenta dopo aver assemblato una pipeline baseline naif, non un sistema di produzione hand-tuned.
Riproducibilità. Ogni numero in questa sezione si riproduce dagli stessi tre clip audio VOA dominio pubblico di 120 secondi, lo stesso endpoint API Realtime, e lo stesso harness Python usato per il benchmark originale a quattro sistemi. L'audio (`audio.zip`), JSON grezzo per-enunciato (`openai-realtime-results.json`), e metodologia sono pubblicati su livelingo.io/research/benchmark-2026.
gpt-realtime-translate — comportamento misurato
Primo-audio più veloce di qualsiasi sistema testato. Mediana 711 ms dall'inizio del parlato al primo audio tradotto attraverso tutte le 120 sessioni valutate (p10–p90: 485–1,012 ms). Per contesto, Gemini 3.5 Live Translate ha misurato ~2.9 s sulla stessa metrica — `gpt-realtime-translate` è circa quattro volte più veloce al primo output. La velocità è il vero punto di forza di questo modello.
Composito fedeltà comprensione: 4.53 / 5. Valutato da due giudici LLM frontier indipendenti (GPT-4o, Gemini 2.5 Flash) usando la stessa rubrica e prompt giudice del benchmark originale a quattro sistemi, attraverso 120 enunciati e quattro coppie di lingue (en→es, en→zh-CN, en→ja, en→de). Questo è stato il punteggio più basso dei sei sistemi misurati. Testa-a-testa contro LiveLingo a livello cella: 4 vittorie, 80 pareggi, 36 sconfitte. Classi di errore ricorrenti: frasi estranee anteposte agli inizi enunciato, inversioni significato (es. "I was stressed about work" reso come desiderio di essere stressato), e nomi propri sostituiti con nomi comuni.
Confronto sei sistemi sul benchmark LiveLingo 2026 (120 enunciati, quattro coppie lingue, composito 2-giudici). Dati grezzi: livelingo.io/research/benchmark-2026.
| Sistema | Comprensione (0–5) | Latenza primo-audio / TTF | Superficie output |
|---|---|---|---|
| LiveLingo | 4.96 | 1,518 ms (trascrizione committata) | Testo + audio streaming |
| Gemini 3.5 Live Translate | 4.93 | ~3,100 ms (TTF) | Audio (sidecar testo) |
| Google Cloud STT v2 + Translate v3 | 4.77 | ~26,736 ms (Trascrizione Finale) | Trascrizione |
| Azure Speech Translation | 4.65 | ~4,755 ms (Trascrizione Finale) | Trascrizione |
| Whisper + GPT-4o-mini (fai-da-te) | 4.63 | 2,720 ms (Trascrizione Finale) | Trascrizione |
| **OpenAI gpt-realtime-translate** | **4.53** | **~3,800 ms (TTF)** | **Audio + trascrizione** |
Drift lag su parlato continuo. La velocità-al-primo-output è eccellente, ma su audio esteso la voce tradotta cade progressivamente dietro al parlante mentre si accumula backlog non tradotto. Misurando da ogni fine-enunciato sorgente all'arrivo del parlato tradotto per quell'enunciato: mediana 3.8 s, driftando fino a 20.3 s dietro sul clip VOA denso pt→en. Questo è il compromesso che l'architettura audio-to-audio crea — l'output parlato è naturalmente limitato dal tasso di parlato della voce sintetizzata, quindi il modello non può "recuperare" più veloce del ritmo umano.
Fallimento parlato code-switched. Per la documentazione sviluppatori OpenAI, il modello può saltare parlato che è già nella lingua di output. Sul clip VOA zh→en nel benchmark LiveLingo, questo è emerso come silenzio al segno 86-secondi, quando la sorgente è passata in parlato inglese — il modello è andato silenzioso e non ha passato il contenuto inglese attraverso l'output tradotto. Gemini 3.5 Live Translate esibisce lo stesso gap sullo stesso clip; questo è un problema di classe per modelli di traduzione dedicati audio-to-audio (vedi callout sotto). Pipeline che forniscono una trascrizione testuale streaming possono passare contenuto code-switched attraverso la trascrizione visualizzata invece di dropparlo.
Superfici output. Audio tradotto più trascrizioni testuali sia di sorgente che output — più vicino a una superficie prodotto transcript-first che all'API solo-audio di Gemini 3.5 Live Translate. Nessuna attribuzione parlante. Nessuna selezione voce. L'output parlato non può essere rivisto dopo essere stato emesso.
Audio-to-audio è una classe con limitazioni condivise. I comportamenti in questa sezione non sono unici a `gpt-realtime-translate`. Gemini 3.5 Live Translate di Google, e qualsiasi altro modello di traduzione audio-to-audio speech-to-speech attuale, eredita la stessa classe di compromessi: (1) drift lag ritmo-output su parlato continuo, perché l'audio tradotto è limitato dal tasso di parlato e non può recuperare più veloce del ritmo umano; (2) silenzio code-switch, perché il modello è configurato per saltare parlato già nella lingua di output; (3) nessuna attribuzione parlante in-line nell'audio sintetizzato; (4) commit irreversibili mid-enunciato, perché l'audio parlato non può essere ritrattato come può il testo visualizzato. Sistemi che forniscono una trascrizione testuale streaming — incluso il percorso fai-da-te Whisper + GPT-4o-mini di OpenAI e prodotti di traduzione streaming-transcript come LiveLingo — evitano (2), (3), e (4) al costo di overhead latenza due-modelli o una modalità output diversa. Tratta questo come insight di categoria, non critica di un modello.
Pipeline fai-da-te Whisper + GPT-4o-mini — comportamento misurato
Sugli stessi tre clip VOA di 120 secondi, una pipeline baseline naif Whisper-large + GPT-4o-mini ha misurato una Latenza Trascrizione Finale mediana di 2,720 ms (95% CI 1,880–3,396, n=28), e ha emesso ≈22 Cancellazioni Normalizzate per clip di 120 secondi (revisioni token attraverso chunk parziali). Il composito fedeltà comprensione era 4.63 / 5 attraverso le stesse quattro coppie di lingue.
Notevolmente: la pipeline fai-da-te ha segnato comprensione più alta del modello dedicato `gpt-realtime-translate` (4.63 vs 4.53). Il modello dedicato è più veloce al primo output e più facile da integrare, ma su questo benchmark la pipeline a due modelli più vecchia legge il significato sorgente leggermente più accuratamente. Le differenze sono entro ~0.10 su una scala a 5 punti e riflettono priorità di design diverse — velocità e semplicità operazionale per il modello dedicato, accuratezza-trascrizione e controllo prompt per la pipeline.
6. 6. Cosa Rivela la Documentazione Ufficiale di OpenAI
Affermazioni tratte direttamente dall'annuncio del 7 maggio 2026 di OpenAI e documentazione sviluppatori:
- Corpus addestramento. "Addestrato su migliaia di ore di audio di interpreti professionali, che lo aiuta a rimanere solo-traduzione e aspettare abbastanza contesto prima di produrre parlato." (Fonte: annuncio OpenAI.)
- Copertura linguistica. 70+ lingue di input in 13 lingue di output. (Fonte: Cookbook OpenAI.)
- Forza lingue indiane. "12.5% Word Error Rates più bassi di qualsiasi altro modello testato" su hindi, tamil, e telugu nella valutazione di OpenAI. (Fonte: annuncio OpenAI.)
- Comportamento code-switching. La documentazione OpenAI afferma che il modello può saltare parlato già nella lingua di output — una scelta di design che produce silenzio su audio code-switched.
- Vincoli modalità. In modalità traduzione, l'input testuale non è supportato e uso strumenti più istruzioni sistema sono disabilitati. La chiamata modalità-traduzione è una superficie vincolata rispetto all'API Realtime generale.
- Formato output (sviluppatore). L'audio è inviato e ricevuto in PCM grezzo con streaming chunked. Riferirsi alla guida API Realtime per il formato esatto e guidance chunk-size.
- Prezzi. $0.034 per minuto di audio di input per `gpt-realtime-translate`. $0.006 per minuto audio per Whisper. GPT-4o-mini per token. ChatGPT Plus è circa $20/mese ed è il tier a pagamento minimo per accesso traduzione live ChatGPT Voice. (Prezzi API OpenAI e prezzi consumer ChatGPT.)
- Utenti lancio documentati. Deutsche Telekom (supporto clienti multilingue) e Vimeo (traduzione in tempo reale di video educativi prodotti). (Fonte: annuncio OpenAI.)
7. 7. Quando Scegliere Quale Superficie — e Quando Si Adatta Meglio Un Altro Strumento
Scegli traduzione live ChatGPT Voice se
- Paghi già per ChatGPT Plus (o Teams, Enterprise, Edu) e non vuoi aggiungere un altro abbonamento.
- Il tuo caso d'uso è una conversazione uno-a-uno o piccola di persona piuttosto che una riunione multi-party che ha bisogno di trascrizioni visualizzate.
- Accetti un'interfaccia modalità-conversazionale piuttosto che un'UI traduttore dedicata con selettori lingua sorgente/target e una trascrizione salvata.
- Sei comodo con il modello che gestisce attività vocale e alternanza turni internamente, senza controllo utente esplicito.
Scegli gpt-realtime-translate (API Realtime) se
- Stai costruendo un'applicazione sviluppatore dove il tempo-al-primo-audio-tradotto conta più del margine comprensione.
- La tua lista lingue di output si adatta dentro 13 lingue.
- Servi audience lingue indiane (hindi, tamil, telugu) dove la valutazione di OpenAI riporta riduzione WER del 12.5% rispetto alle alternative.
- Puoi costruire il layer consumer-facing (UI, telefonia, gestione errori, fallback code-switch) sopra l'API di OpenAI.
- Accetti il compromesso velocità-vs-comprensione (4.53/5 comprensione vs 4.63 per la pipeline fai-da-te sullo stesso benchmark) in cambio di una chiamata API invece di due.
Scegli Whisper + GPT-4o-mini fai-da-te se
- Hai bisogno di lingue di output arbitrarie fuori dal limite 13-lingue.
- Hai bisogno di controllo completo prompt e glossario per vincoli vocabolario specializzato o stile.
- Hai capacità ingegneristica per VAD, rilevamento endpoint, filtraggio allucinazioni, UI streaming, e telefonia.
- Vuoi costo per-minuto audio più basso ($0.006 Whisper) e puoi accettare prezzi per-token GPT-4o-mini.
- Vuoi integrare traduzione con la superficie capacità API Realtime più ampia (uso strumenti, istruzioni sistema) che la modalità traduzione dedicata non espone.
Dove un altro strumento può adattarsi meglio
Le tre superfici di OpenAI coprono la maggior parte dei casi d'uso traduzione live, ma ognuna vive dentro una forma specifica: ChatGPT Voice è un chatbot con traduzione, `gpt-realtime-translate` è un'API sviluppatore, e Whisper + GPT-4o-mini è un set di building block. Una superficie app-traduttore dedicata — con output testo + audio streaming che puoi leggere mentre ascolti, attribuzione per-parlante, trascrizioni visualizzate gated-commit che non si ritraggono mai, chiamate in uscita tradotte, e un tier gratuito fuori da un gate abbonamento — è una categoria prodotto diversa. LiveLingo (che pubblica questa guida) si posiziona lì. Compromesso onesto: l'output audio di LiveLingo gira attraverso il motore text-to-speech predefinito della piattaforma host, quindi la voce parlata è meno espressiva di quella di `gpt-realtime-translate`; l'interfaccia conversazionale di ChatGPT Voice può sentirsi più naturale di un'UI traduttore dedicata per scambi casuali avanti-e-indietro. Specifiche fianco-a-fianco: /it/compare/chatgpt-translation. Numeri benchmark: /it/research/benchmark-2026.
8. 8. Domande Frequenti
Che traduzione live offre OpenAI nel 2026?
OpenAI fornisce traduzione live attraverso tre superfici a metà 2026. ChatGPT Voice include una modalità traduzione live per abbonati a pagamento (Plus, Teams, Enterprise, Edu). `gpt-realtime-translate` è un modello di traduzione speech-to-speech streaming dedicato nell'API Realtime, rilasciato il 7 maggio 2026, prezzato a $0.034 per minuto di audio di input con 70+ lingue di input e 13 lingue di output. Una pipeline fai-da-te di Whisper-large (speech-to-text) e GPT-4o-mini (traduzione) rimane disponibile per sviluppatori che vogliono coppie di lingue arbitrarie e controllo completo dello stack.
Come funziona la traduzione live ChatGPT Voice?
Tocca l'icona Voice nel compositore messaggi app ChatGPT, poi chiedi all'assistente di tradurre — es. "traduci tra inglese e giapponese." Il modello continua a tradurre attraverso i turni finché non gli viene detto di fermarsi o cambiare lingue. Disponibile per abbonati ChatGPT a pagamento (Plus ~$20/mese, Teams, Enterprise, o Edu). È una superficie vocale conversazionale, non un'UI traduttore dedicata con selettori lingua sorgente/target, coppie trascrizione sorgente-e-tradotta, o composizione chiamate.
Cos'è gpt-realtime-translate?
Il modello di traduzione speech-to-speech streaming dedicato di OpenAI nell'API Realtime, rilasciato il 7 maggio 2026. Addestrato su migliaia di ore di audio di interpreti professionali. 70+ lingue di input → 13 lingue di output. Prezzato a $0.034 per minuto di audio di input. Restituisce audio tradotto più trascrizioni testuali sia di sorgente che output. Utenti enterprise documentati al lancio includono Deutsche Telekom e Vimeo.
Puoi ancora costruire un traduttore live con Whisper e GPT-4o-mini?
Sì. La pipeline fai-da-te (Whisper-large $0.006/min audio, 99 lingue sorgente; GPT-4o-mini per token) rimane il percorso OpenAI più flessibile — supporta coppie di lingue arbitrarie e dà controllo completo su chunking, prompting, e formato output. Il compromesso è costo ingegneristico: l'API di Whisper non segmenta il parlato continuo in confini di enunciato, quindi lo sviluppatore deve costruire VAD, logica endpoint, filtraggio allucinazioni, UI streaming, e telefonia.
Quali sono latenza e comprensione misurate di gpt-realtime-translate?
Nell'addendum benchmark LiveLingo Research (10 giugno 2026), `gpt-realtime-translate` aveva la latenza primo-audio più veloce di qualsiasi sistema testato — mediana 711 ms dall'inizio parlato al primo audio tradotto. Il composito fedeltà comprensione era 4.53 / 5, il più basso dei sei sistemi misurati. Su parlato continuo, la voce tradotta è caduta dietro al parlante — mediana 3.8 s, driftando fino a 20.3 s su audio denso. Errori ricorrenti: inserzioni estranee, inversioni significato, sostituzioni nome-proprio. Fonte: livelingo.io/research/benchmark-2026.
Questi numeri riflettono l'esperienza utente ChatGPT Voice?
No. I numeri misurati sono per la chiamata API Realtime `gpt-realtime-translate` grezza. ChatGPT Voice è costruito sulla stessa infrastruttura Realtime ma l'app consumer aggiunge il proprio VAD lato client, stato conversazione, rendering UI, e può applicare smoothing lato server non misurato separatamente. Un utente ChatGPT Voice può vedere latenza percepita diversa, drift lag, e comportamento code-switching rispetto ai numeri tier-API riportati. Tratta il benchmark pubblicato come il floor esperienza-sviluppatore sull'endpoint API Realtime, non il ceiling utente ChatGPT-Voice.
Come gestisce OpenAI il code-switching?
Per la documentazione sviluppatori OpenAI, `gpt-realtime-translate` può saltare parlato già nella lingua di output. Nel benchmark LiveLingo questo è emerso come silenzio sul clip VOA zh→en al segno 86-secondi quando la sorgente è passata in inglese. Gemini 3.5 Live Translate esibisce lo stesso gap sullo stesso clip. Sistemi streaming text-transcript che passano parlato lingua-target attraverso la trascrizione visualizzata non hanno questo gap.
Quando dovresti scegliere quale superficie OpenAI?
Traduzione live ChatGPT Voice se paghi già per ChatGPT Plus o superiore e accetti un'interfaccia conversazionale. `gpt-realtime-translate` se costruisci un'applicazione sviluppatore dove velocità-al-primo-audio conta più della stabilità testo-visualizzato, la tua lista lingue di output si adatta dentro 13, e puoi costruire la superficie consumer sopra. Whisper + GPT-4o-mini fai-da-te se hai bisogno di lingue di output arbitrarie, controllo completo prompt e glossario, costo per-minuto più basso, e capacità ingegneristica per costruire VAD, rilevamento endpoint, filtraggio allucinazioni, UI streaming, e telefonia.
9. 9. Fonti
- OpenAI. Advancing voice intelligence with new models in the API. Blog OpenAI, 7 maggio 2026. openai.com
- OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. Cookbook OpenAI. developers.openai.com
- OpenAI Developers. Realtime and audio (guida API Realtime). developers.openai.com
- OpenAI. ChatGPT Voice mode (pagina funzioni consumer). chatgpt.com
- OpenAI. API pricing (tariffe per-modello). openai.com/api/pricing
- OpenAI. ChatGPT pricing (tier consumer). openai.com/chatgpt/pricing
- OpenAI. Speech-to-text guide (documentazione Whisper). platform.openai.com
- Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time, 7 maggio 2026. tomsguide.com
- 9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak, 7 maggio 2026. 9to5mac.com
- Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT. slator.com
- openai/whisper. GitHub Discussions — allucinazioni su clip brevi. github.com
- LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — addendum OpenAI gpt-realtime-translate, 10 giugno 2026. livelingo.io/research/benchmark-2026
- LiveLingo. LiveLingo vs ChatGPT: Traduzione Vocale in Tempo Reale a Confronto (2026). livelingo.io/compare/chatgpt-translation
Prezzi, disponibilità, utenti lancio, e dettagli accesso tier-consumer verificati contro le fonti primarie sopra il 10 giugno 2026. OpenAI può cambiare tier, prezzi, copertura linguistica, e comportamento modello; consulta le fonti linkate per stato attuale prima di fare affidamento su qualsiasi numero specifico.