Gemini 3.5 Live Translate: Funzioni, Limiti e Come Funziona (2026)

Professionisti diversi in una videochiamata multilingue, con traduzione vocale che fluisce continuamente tra i parlanti.

1. 1. Cos'è Gemini 3.5 Live Translate

Gemini 3.5 Live Translate è un modello di traduzione vocale in streaming che Google ha annunciato il 9 giugno 2026. Due caratteristiche lo distinguono dai precedenti prodotti di traduzione.

Primo, è audio-to-audio piuttosto che la vecchia pipeline speech-to-text-to-translation-to-text-to-speech. Il modello accetta audio di origine in streaming in blocchi da 100 millisecondi e produce parlato tradotto come output. Le trascrizioni testuali sono disponibili, ma solo come accompagnamento dell'output parlato — non c'è modalità testo in streaming e nessuna attribuzione del parlante nell'audio tradotto.

Secondo, la voce generata è progettata per preservare la prosodia del parlante. L'annuncio di Google descrive un output che mantiene l'intonazione, il ritmo e l'altezza del parlante. In pratica questo produce una voce tradotta che suona sostanzialmente più naturale di un motore text-to-speech generico che legge ad alta voce una traduzione — un vero vantaggio rispetto ai sistemi di traduzione vocale il cui output audio passa attraverso un livello TTS standard.

Il modello è costruito su Gemini 3 Pro. Secondo la scheda del modello Gemini 3.5 Audio pubblicata da Google DeepMind, accetta input audio con una finestra di contesto fino a 128K token e produce output audio + testo fino a 64K token. Rileva automaticamente oltre 70 lingue, inclusi rapidi cambi di lingua tra parlanti, anche se quel rilevamento ha debolezze documentate (coperte nella Sezione 4).

Il lancio copre tre superfici di prodotto in parallelo: accesso per sviluppatori tramite l'API Gemini Live e Google AI Studio (anteprima pubblica dal 9 giugno 2026); accesso per consumatori attraverso l'app Google Translate su Android e iOS, in distribuzione globale a partire da quel giorno, con una nuova "modalità ascolto" su Android; e accesso enterprise attraverso Google Meet in anteprima privata per clienti Google Workspace selezionati, dove espande la copertura di traduzione di Meet da 5 lingue a 70+ e supporta oltre 2.000 combinazioni origine/destinazione all'interno di una singola riunione.

2. 2. Come Funziona: Architettura Audio-to-Audio e Preservazione della Prosodia

Tre scelte architetturali distinguono Gemini 3.5 Live Translate dai precedenti sistemi di traduzione in streaming.

Speech-to-speech, non speech-to-text-to-speech

Le pipeline tradizionali fanno passare l'audio attraverso un modello streaming speech-to-text, alimentano la trascrizione a un modello di traduzione automatica, poi sintetizzano la traduzione attraverso un modello text-to-speech separato. Ogni fase aggiunge latenza e accumula errori. Gemini 3.5 Live Translate unisce questi passaggi in un unico modello audio. Il compromesso: l'output è audio permanente, non testo modificabile — una volta che una parola è pronunciata, non può essere rivista a metà espressione.

Streaming continuo, non basato su turni

L'annuncio di Google inquadra il modello come uno che "bilancia il compromesso tra aspettare il contesto per migliorare la qualità e tradurre immediatamente per rimanere sincronizzato con il parlante." I precedenti prodotti consumer come la precedente modalità Conversazione di Google Translate erano basati su turni: tocca, parla, aspetta che il sistema finalizzi ed emetta la traduzione, poi lascia che l'altra parte tocchi. Gemini 3.5 Live Translate emette parlato tradotto continuamente mentre il parlante di origine sta ancora parlando, con Google che descrive un ritardo di "alcuni secondi."

Trasferimento della prosodia

Il modello è progettato per trasferire le caratteristiche vocali del parlante di origine — intonazione, ritmo, enfasi, altezza — nell'audio tradotto. Questa è la principale ragione tecnica per cui l'output suona naturale piuttosto che robotico. È anche la fonte delle limitazioni di coerenza vocale che la scheda del modello di Google rivela (Sezione 4).

Sulla superficie per sviluppatori, ogni sessione usa audio PCM grezzo a 16 bit a 16 kHz mono come input e produce audio PCM mono a 24 kHz come output, inviato in blocchi da 100 millisecondi. Tutto l'audio generato porta la filigrana SynthID di Google — una firma impercettibile tessuta nella forma d'onda che permette ai sistemi downstream di identificare l'audio come generato da macchina.

Smartphone che mostra un'interfaccia di traduzione vocale in streaming con forme d'onda audio e selezione della lingua.

3. 3. Dove Gemini 3.5 Live Translate È Più Forte

Cinque punti di forza del prodotto emergono immediatamente quando si confronta Gemini 3.5 Live Translate con i suoi pari.

Parlato tradotto dal suono naturale. La voce che preserva la prosodia è il vantaggio più chiaro rispetto ai sistemi di traduzione vocale il cui output audio passa attraverso un motore TTS generico. Se hai usato un'app di traduzione vocale il cui audio tradotto suona come un narratore piatto che legge una stringa di parole, il contrasto è immediato. Gemini 3.5 Live Translate è materialmente migliore qui, e la differenza è udibile dalla prima frase.

Semplicità audio-to-audio. Costruire un'applicazione di traduzione vocale ha tradizionalmente significato concatenare un modello STT in streaming (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), un modello di traduzione e un motore TTS — e gestire la semantica di emissione parziale di ciascuno. Gemini 3.5 Live Translate sostituisce quella catena con una singola chiamata API, semplificando sia il codice dell'applicazione che la superficie di fallimento.

Rilevamento automatico della lingua su larga scala. 70+ lingue rilevate automaticamente, senza bisogno che l'utente imposti una coppia di lingue in anticipo. Il posizionamento di Google enfatizza casi d'uso come riunioni multi-party dove i parlanti cambiano lingua a metà conversazione.

Distribuzione. Integrato direttamente nell'app consumer Google Translate e Google Meet. Per gli utenti finali, il costo di installazione e scoperta è quasi zero — hanno già l'app. Per i clienti Meet, la traduzione arriva come un interruttore di funzione all'interno di un flusso di lavoro che è già in uso.

Output con filigrana. La filigrana SynthID rende il parlato generato identificabile come generato da AI per casi d'uso di conformità downstream, che è utile in industrie regolamentate che devono tracciare contenuti generati da AI.

4. 4. Cosa Ammette Come Limitazioni la Stessa Scheda del Modello di Google

La scheda del modello Gemini 3.5 Audio pubblicata da Google DeepMind documenta specifiche limitazioni note di Gemini 3.5 Live Translate. Citando direttamente la scheda:

Rilevamento della lingua

"Il rilevamento della lingua può avere difficoltà con accenti non nativi, lingue simili o rapidi cambi di lingua." Implicazione pratica: se un parlante ha un forte accento, o la lingua di origine è vicina a una lingua correlata (portoghese vs. spagnolo, norvegese vs. svedese), o la conversazione cambia lingue rapidamente, il rilevatore potrebbe scegliere la lingua di origine sbagliata e tradurre di conseguenza.

Coerenza vocale in sessioni multi-parlante

"Le voci possono essere incoerenti, e le voci possono cambiare dopo lunghe pause, cambiare genere, o rimanere bloccate su una voce durante sessioni multi-parlante rapide." Questa è la limitazione praticamente più significativa per molti casi d'uso. In una riunione con diversi parlanti che si alternano rapidamente, il modello potrebbe produrre tutto l'output tradotto in una voce — perdendo l'attribuzione del parlante su cui gli ascoltatori si affidano per seguire la conversazione.

Filtraggio del rumore

"Progettato per filtrare il rumore di fondo, ma non tutto l'audio di fondo potrebbe essere ignorato." Gli ambienti del mondo reale continueranno a filtrare attraverso sotto alcune condizioni.

Vincoli della modalità traduzione (API per sviluppatori)

Secondo la copertura del lancio che cita la documentazione per sviluppatori di Google, "l'input di testo non è supportato in modalità traduzione" e il modello "abbandona l'uso di strumenti e istruzioni di sistema in questa modalità." Per gli sviluppatori, la chiamata API di traduzione è una superficie vincolata — non puoi inviare testo, non puoi usare l'ecosistema di strumenti Gemini più ampio, e non puoi iniettare prompt di sistema. Traduzione in entrata, traduzione in uscita.

5. 5. Misurazioni Indipendenti dal Benchmark LiveLingo 2026

LiveLingo Research ha valutato Gemini 3.5 Live Translate nel suo giorno di lancio (9 giugno 2026) contro lo stesso protocollo usato per il benchmark originale di Google Cloud STT v2 + Translation v3, Azure Speech Translation e Whisper-large + GPT-4o-mini. L'addendum completo è pubblicato su livelingo.io/research/benchmark-2026#comprehension-gemini-live; i numeri principali sono sotto.

Composito fedeltà di comprensione: 4,93 / 5 attraverso 120 espressioni e quattro coppie di lingue (en→es, en→zh-CN, en→ja, en→de). Questo è il risultato più forte tra i quattro sistemi concorrenti nel benchmark; il punteggio più vicino è 4,77 (Google Cloud Translation v3).

Latenza primo-audio: mediana 2.947 ms dall'inizio del parlato al primo audio tradotto (p10–p90: 2.859–3.104 ms). Questo è un ritardo costante di ~3 secondi nel parlare, coerente con l'inquadramento di Google di "alcuni secondi dietro."

L'output è solo parlato tradotto. L'API non ha modalità testo in streaming e nessuna attribuzione per parlante. Le trascrizioni testuali sono disponibili come accompagnamento dell'output parlato. L'output parlato non può essere rivisto dopo essere stato emesso.

Audio con alternanza di codice. Su un clip di notizie in mandarino che passa a interviste di strada in inglese a 86 secondi, il benchmark LiveLingo ha registrato che l'output della traduzione si interrompe al cambio in ogni esecuzione: il parlato già nella lingua di output non viene né tradotto né trascritto, quindi gli ultimi 34 secondi di contenuto (~28% del clip) scompaiono silenziosamente per l'ascoltatore senza che venga segnalato alcun errore. gpt-realtime-translate di OpenAI mostra lo stesso comportamento sullo stesso clip, e OpenAI documenta che saltare il parlato nella lingua di output è intenzionale; si tratta di un limite strutturale degli attuali traduttori speech-to-speech su audio multilingue.

Inversione fattuale su sintassi a risoluzione tardiva. Su un clip di discorso aziendale in mandarino, una frase che descriveva un aumento delle vendite del 15% è stata resa in inglese come un obiettivo di aumentare le vendite del 15%. Questa è la classe di errore che l'impegno audio irreversibile a metà frase produce quando la lingua di origine posticipa l'elemento portatore di significato (la polarità, il riferimento temporale, il soggetto) fino a tardi nella frase.

Queste sono misurazioni indipendenti, non i numeri di Google stesso; metodologia e dati grezzi per espressione sono nell'addendum pubblicato.

6. 6. Come Accedere a Gemini 3.5 Live Translate

Consumer — App Google Translate

Aggiorna l'app Google Translate alla sua ultima versione su Android o iOS. La modalità Live Translate è in distribuzione globale a partire dal 9 giugno 2026 — la disponibilità dipende dal programma di distribuzione dello store nella tua regione. Su Android, una nuova "modalità ascolto" ti permette di sentire il parlato tradotto direttamente attraverso l'auricolare del tuo dispositivo.

Sviluppatori — API Gemini Live + Google AI Studio

Il modello è disponibile in anteprima pubblica attraverso l'API Gemini Live e attraverso Google AI Studio. Secondo la copertura del lancio, i vincoli di integrazione sono specifici: solo input audio (nessun input di testo in modalità traduzione), nessun uso di strumenti o istruzioni di sistema, input PCM grezzo a 16 bit 16 kHz mono suddiviso a 100 ms, output PCM 24 kHz. Fai riferimento a Google AI Studio per quote e prezzi attuali.

Enterprise — Google Meet

Gemini 3.5 Live Translate è in anteprima privata per clienti Google Workspace selezionati dal 9 giugno 2026. Dove abilitato, espande la copertura di traduzione di Meet da 5 lingue a 70+ lingue e supporta 2.000+ combinazioni origine/destinazione all'interno di una singola riunione. La disponibilità è graduale, non universale.

7. 7. Quando Usare Gemini 3.5 — e Quando Un Altro Strumento Si Adatta Meglio

Quando Gemini 3.5 Live Translate è la scelta giusta

Vuoi parlato tradotto, non testo tradotto. L'output vocale naturale è il più grande vantaggio del prodotto.
Sei già nell'app Google Translate o Google Meet. L'integrazione è a costo zero da scoprire e usare.
Le tue conversazioni sono uno-a-uno, o hanno chiari turni di parola con pause tra i parlanti. Le limitazioni di coerenza vocale che la scheda del modello di Google rivela sono più deboli in questi contesti.
Stai costruendo un'applicazione per sviluppatori dove semplificare la catena STT → MT → TTS in una singola API conta più del controllo fine su ogni fase.
Puoi vivere senza attribuzione del parlante nell'output audio, e senza trascrizioni testuali in streaming.

Quando potresti preferire uno strumento diverso

Hai bisogno di testo in streaming insieme o invece dell'audio. Il testo in streaming è quello che la maggior parte delle interfacce di produzione mostrano sullo schermo durante sottotitoli dal vivo, traduzione di conferenze e scenari di accessibilità. Il testo di Gemini 3.5 Live Translate è solo di accompagnamento.
Hai bisogno di attribuzione per parlante nell'output tradotto. La rivelazione della scheda del modello di "potrebbe rimanere bloccato su una voce durante sessioni multi-parlante rapide" rende questo un rischio reale per le riunioni.
Traduci conversazioni dove la stabilità conta più dell'espressività. L'output audio non può essere rivisto a metà espressione, quindi su lingue con sintassi a risoluzione tardiva (polarità mandarino alla fine della frase, verbo giapponese alla fine della frase), un impegno precoce può invertire il significato. L'addendum del benchmark documenta un tale caso.
Hai bisogno di chiamate telefoniche tradotte — comporre un numero PSTN con traduzione che funziona sulla linea. L'API Gemini Live è un blocco di costruzione per sviluppatori, non un fornitore di chiamate telefoniche.

Una concessione onesta. LiveLingo, il prodotto che pubblica questa guida, si adatta alla seconda colonna sulla maggior parte di queste dimensioni: output testo + audio in streaming, attribuzione per parlante, commit gated monotonico così le traduzioni mostrate non vengono mai ritrattate, chiamate telefoniche in uscita tradotte. L'output audio di LiveLingo, tuttavia, usa il motore text-to-speech predefinito della piattaforma host (iOS nativo su dispositivi Apple), che suona meno naturale della voce generata di Gemini 3.5 Live Translate. Quello è un vero vantaggio che Google ha spedito oggi. Confronta le specifiche fianco a fianco su livelingo.io/compare/google-translate, o numeri di benchmark misurati su livelingo.io/research/benchmark-2026.

8. 8. Domande Frequenti

Cos'è Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate è un modello di traduzione vocale in streaming rilasciato da Google il 9 giugno 2026. È costruito su Gemini 3 Pro, genera audio tradotto che preserva l'intonazione, il ritmo e l'altezza del parlante, e rileva automaticamente 70+ lingue. È disponibile per sviluppatori tramite l'API Gemini Live e Google AI Studio (anteprima pubblica), per consumatori tramite l'app Google Translate su Android e iOS, e per clienti Google Workspace selezionati tramite Google Meet (anteprima privata).

Quali lingue supporta Gemini 3.5 Live Translate?

Oltre 70 lingue, rilevate automaticamente. In Google Meet specificamente, questo espande la copertura precedente da 5 lingue a 70+ lingue e supporta più di 2.000 combinazioni origine/destinazione all'interno di una singola riunione.

Quanto costa Gemini 3.5 Live Translate?

Per i consumatori, l'app Google Translate è gratuita. L'accesso per sviluppatori tramite l'API Gemini Live e Google AI Studio è prezzato secondo le tariffe API standard di Google — controlla Google AI Studio per i prezzi attuali. L'accesso enterprise tramite Google Meet è limitato a clienti Google Workspace selezionati in anteprima privata dal 9 giugno 2026.

Come gestisce Gemini 3.5 Live Translate più parlanti?

Secondo la scheda del modello Gemini 3.5 Audio pubblicata da Google DeepMind: "Le voci possono essere incoerenti, e le voci possono cambiare dopo lunghe pause, cambiare genere, o rimanere bloccate su una voce durante sessioni multi-parlante rapide." Praticamente: conversazioni uno-a-uno e discussioni a turni con pause chiare funzionano bene; scenari multi-parlante rapidi sono una debolezza documentata. Non c'è attribuzione per parlante nell'output audio tradotto.

Gemini 3.5 Live Translate produce testo in output?

L'output primario è parlato tradotto. Le trascrizioni testuali sono disponibili, ma solo come accompagnamento dell'output parlato — non c'è modalità testo in streaming, e l'API in modalità traduzione non accetta input di testo.

Qual è la latenza misurata di Gemini 3.5 Live Translate?

Google descrive il sistema come rimanendo "alcuni secondi dietro il parlante." La misurazione indipendente di LiveLingo Research nel giorno di lancio ha registrato una latenza primo-audio mediana di 2.947 ms (p10–p90: 2.859–3.104 ms) attraverso 120 espressioni di test — un ritardo costante di circa 3 secondi nel parlare. Fonte: livelingo.io/research/benchmark-2026.

Quando è stato rilasciato Gemini 3.5 Live Translate?

Google ha annunciato e iniziato a distribuire Gemini 3.5 Live Translate il 9 giugno 2026, attraverso l'API Gemini Live e Google AI Studio (anteprima pubblica per sviluppatori), l'app Google Translate su Android e iOS (distribuzione globale a partire da quel giorno), e Google Meet (anteprima privata per clienti Workspace selezionati).

9. 9. Fonti

Google. Traduzione vocale fluida e naturale con Gemini 3.5 Live Translate. Blog Google, 9 giugno 2026. blog.google
Google DeepMind. Gemini 3.5 Audio (Live Translate) — Scheda del Modello. deepmind.google
MarkTechPost. Google Rilascia Gemini 3.5 Live Translate, un Modello Audio Speech-to-Speech in Streaming che Copre 70+ Lingue attraverso Meet, Translate e l'API Live, 9 giugno 2026. marktechpost.com
LiveLingo Research. Benchmark Traduzione Vocale in Tempo Reale 2026 — addendum Gemini 3.5 Live Translate, 9 giugno 2026. livelingo.io/research/benchmark-2026