
1. 1. Gemini 3.5 即時翻譯是什麼
Gemini 3.5 即時翻譯是 Google 於 2026 年 6 月 9 日發布的串流語音轉語音翻譯模型。有兩個特點讓它與早期翻譯產品有所區別。
首先,它是音訊對音訊的處理,而非傳統的語音轉文字轉翻譯轉文字轉語音的流程。該模型接受以 100 毫秒為單位的串流來源音訊,並產生翻譯後的語音輸出。文字轉錄雖然可用,但僅作為語音輸出的附帶功能——沒有串流文字模式,翻譯音訊中也沒有說話者標示。
其次,生成的語音設計為保留說話者的韻律特徵。Google 的公告描述輸出能保留說話者的語調、節奏和音調。實際上,這產生的翻譯語音比通用文字轉語音引擎朗讀翻譯內容聽起來自然得多——相較於音訊輸出經過標準 TTS 層的語音翻譯系統,這是一個真正的優勢。
該模型基於 Gemini 3 Pro 建構。根據 Google DeepMind 發布的 Gemini 3.5 Audio 模型卡片,它接受最多 128K 標記上下文視窗的音訊輸入,並產生最多 64K 標記的音訊 + 文字輸出。它能自動偵測超過 70 種語言,包括說話者之間的快速語言切換,儘管該偵測功能有已記錄的弱點(第 4 節涵蓋)。
此次發布同時涵蓋三個產品介面:透過 Gemini Live API 和 Google AI Studio 的開發者存取(自 2026 年 6 月 9 日起公開預覽);透過 Android 和 iOS 上 Google 翻譯應用程式的消費者存取,從當天開始全球推出,Android 上新增「聆聽模式」;以及透過 Google Meet 為特定 Google Workspace 客戶提供的企業存取私人預覽,將 Meet 的翻譯覆蓋範圍從 5 種語言擴展到 70+ 種,並在單次會議中支援超過 2,000 種來源/目標組合。
2. 2. 運作原理:音訊對音訊架構與韻律保留
三個架構選擇讓 Gemini 3.5 即時翻譯與早期串流翻譯系統有所區別。
語音對語音,而非語音轉文字轉語音
傳統流程將音訊通過串流語音轉文字模型,將轉錄內容輸入機器翻譯模型,然後透過獨立的文字轉語音模型合成翻譯。每個階段都會增加延遲並累積錯誤。Gemini 3.5 即時翻譯將這些步驟整合為一個音訊模型。權衡之處:輸出是永久音訊,不是可編輯的文字——一旦說出一個詞,就無法在話語中途修正。
持續串流,而非輪流制
Google 的公告將該模型定位為「平衡等待上下文以提升品質與立即翻譯以與說話者保持同步之間的權衡」。早期消費者產品如 Google 翻譯先前的對話模式是輪流制:點擊、說話、等待系統完成並發出翻譯,然後讓對方點擊。Gemini 3.5 即時翻譯在來源說話者仍在說話時持續發出翻譯語音,Google 描述延遲為「幾秒鐘」。
韻律轉移
該模型設計為將來源說話者的聲音特徵——語調、節奏、重音、音調——帶入翻譯音訊中。這是輸出聽起來自然而非機械化的主要技術原因。這也是 Google 模型卡片揭露的語音一致性限制的來源(第 4 節)。
在開發者介面上,每個會話使用原始 16 位元 PCM 音訊,16 kHz 單聲道作為輸入,並產生 24 kHz 單聲道 PCM 音訊作為輸出,以 100 毫秒為單位發送。所有生成的音訊都帶有 Google 的 SynthID 浮水印——一個編織在波形中的不可察覺簽名,讓下游系統能識別音訊為機器生成。

3. 3. Gemini 3.5 即時翻譯的優勢所在
將 Gemini 3.5 即時翻譯與同類產品比較時,五個產品優勢立即顯現。
自然的翻譯語音。 韻律保留語音是相較於音訊輸出經過通用 TTS 引擎的語音翻譯系統最明顯的優勢。如果您曾使用過翻譯音訊聽起來像平淡敘述者朗讀一串詞彙的語音翻譯應用程式,對比立即可見。Gemini 3.5 即時翻譯在這方面明顯更好,差異在第一句話就能聽出。
音訊對音訊的簡潔性。 建構語音翻譯應用程式傳統上意味著串聯串流 STT 模型(Whisper-large、Google Cloud Speech-to-Text、Azure Speech)、翻譯模型和 TTS 引擎——並管理每個的部分發出語義。Gemini 3.5 即時翻譯用一個 API 呼叫取代該鏈條,簡化了應用程式程式碼和故障面。
大規模自動語言偵測。 70+ 種語言自動偵測,無需使用者事先設定語言對。Google 的定位強調多方會議等使用情境,說話者在對話中途切換語言。
分發優勢。 直接內建於 Google 翻譯消費者應用程式和 Google Meet 中。對終端使用者而言,安裝和發現成本接近零——他們已經有該應用程式。對 Meet 客戶而言,翻譯作為已在使用工作流程中的功能切換出現。
浮水印輸出。 SynthID 浮水印使生成的語音可識別為 AI 生成,用於下游合規使用情境,這對需要追蹤 AI 生成內容的受管制行業很有用。
4. 4. Google 官方模型卡片承認的限制
Google DeepMind 發布的 Gemini 3.5 Audio 模型卡片 記錄了 Gemini 3.5 即時翻譯的特定已知限制。直接引用卡片內容:
語言偵測
「語言偵測可能在非母語口音、相似語言或快速語言切換時遇到困難。」實際影響:如果說話者有濃重口音,或來源語言接近相關語言(葡萄牙語 vs. 西班牙語、挪威語 vs. 瑞典語),或對話快速切換語言,偵測器可能選擇錯誤的來源語言並據此翻譯。
多說話者會話中的語音一致性
「語音可能不一致,語音可能在長時間暫停後改變、改變性別,或在快速多說話者會話中卡在一個語音上。」這是許多使用情境中最實際重要的限制。在有多位說話者快速輪流的會議中,模型可能以一個語音產生所有翻譯輸出——失去聽眾依賴來跟隨對話的說話者歸屬。
噪音過濾
「設計為過濾背景噪音,但並非所有背景音訊都會被忽略。」真實世界環境在某些條件下仍會滲透。
翻譯模式限制(開發者 API)
根據引用 Google 開發者文件的發布報導,「翻譯模式不支援文字輸入」且模型「在此模式下放棄工具使用和系統指令」。對開發者而言,翻譯 API 呼叫是受限介面——您無法發送文字,無法使用更廣泛的 Gemini 工具生態系統,也無法注入系統提示。翻譯輸入,翻譯輸出。
5. 5. LiveLingo 2026 基準測試的獨立測量
LiveLingo Research 在發布日(2026 年 6 月 9 日)評估了 Gemini 3.5 即時翻譯,採用與原始基準測試相同的協議,該基準測試涵蓋 Google Cloud STT v2 + Translation v3、Azure Speech Translation 和 Whisper-large + GPT-4o-mini。完整附錄發布於 livelingo.io/research/benchmark-2026#comprehension-gemini-live;主要數據如下。
理解保真度綜合評分:4.93 / 5,涵蓋 120 個話語和四個語言對(en→es、en→zh-CN、en→ja、en→de)。這是基準測試中四個競爭系統中最強的結果;次高分數是 4.77(Google Cloud Translation v3)。
首次音訊延遲:中位數 2,947 毫秒,從開始說話到首次翻譯音訊(p10–p90:2,859–3,104 毫秒)。這是恆定的約 3 秒說話延遲,與 Google 的「落後幾秒鐘」描述一致。
輸出僅為翻譯語音。 API 沒有串流文字模式,也沒有每位說話者歸屬。文字轉錄可作為語音輸出的附帶功能取得。語音輸出發出後無法修正。
語碼轉換音訊。 在一段普通話新聞片段中,於第86秒切換到英語街頭採訪,LiveLingo基準測試記錄到,每次運行時,翻譯輸出都會在切換處停止:已經是輸出語言的語音既未被翻譯也未被轉錄,因此最後34秒的內容(約佔片段的28%)會無聲地消失,聽眾也未收到任何錯誤提示。OpenAI的gpt-realtime-translate在同一片段上顯示出相同的行為,且OpenAI文件記載跳過輸出語言語音是預期的行為;這是當前語音到語音翻譯器在混合語言音訊上的結構性限制。
延遲解析語法的事實倒置。 在中文商業演講片段上,描述 15% 銷售增長的句子在英語中呈現為增加銷售 15% 的目標。這是當來源語言將意義承載元素(極性、時間參考、主語)推遲到句子後期時,不可逆的句中音訊承諾產生的錯誤類別。
這些是獨立測量,不是 Google 自己的數據;方法論和原始每話語數據在已發布的附錄中。
6. 6. 如何存取 Gemini 3.5 即時翻譯
消費者——Google 翻譯應用程式
將 Android 或 iOS 上的 Google 翻譯應用程式更新至最新版本。即時翻譯模式從 2026 年 6 月 9 日開始全球推出——可用性取決於您所在地區的商店推出時程。在 Android 上,新的「聆聽模式」讓您直接透過裝置的聽筒聽到翻譯語音。
開發者——Gemini Live API + Google AI Studio
該模型透過 Gemini Live API 和 Google AI Studio 提供公開預覽。根據發布報導,整合限制很具體:僅音訊輸入(翻譯模式不支援文字輸入)、無工具使用或系統指令、原始 16 位元 PCM 16 kHz 單聲道輸入以 100 毫秒分塊、24 kHz PCM 輸出。請參考 Google AI Studio 了解當前配額和定價。
企業——Google Meet
截至 2026 年 6 月 9 日,Gemini 3.5 即時翻譯為特定 Google Workspace 客戶提供私人預覽。啟用後,它將 Meet 的翻譯覆蓋範圍從 5 種語言擴展到 70+ 種語言,並在單次會議中支援 2,000+ 種來源/目標組合。可用性是逐步推出,非全面開放。
7. 7. 何時使用 Gemini 3.5——何時其他工具更適合
何時 Gemini 3.5 即時翻譯是正確選擇
- 您想要翻譯語音,而非翻譯文字。自然語音輸出是該產品最大的優勢。
- 您已經在 Google 翻譯應用程式或 Google Meet 中。整合的發現和使用成本為零。
- 您的對話是一對一,或有明確的輪流制且說話者之間有暫停。Google 模型卡片揭露的語音一致性限制在這些情境中較弱。
- 您正在建構開發者應用程式,將 STT → MT → TTS 鏈條簡化為單一 API 比對每個階段的精細控制更重要。
- 您可以接受音訊輸出中沒有說話者歸屬,也沒有串流文字轉錄。
何時您可能偏好不同工具
- 您需要串流文字伴隨或取代音訊。 串流文字是大多數生產介面在即時字幕、會議翻譯和無障礙情境中螢幕顯示的內容。Gemini 3.5 即時翻譯的文字僅為附帶功能。
- 您需要翻譯輸出中的每位說話者歸屬。 模型卡片的「可能在快速多說話者會話中卡在一個語音上」揭露使這對會議成為真正風險。
- 您翻譯穩定性比表達性更重要的對話。 音訊輸出無法在話語中途修正,因此在具有延遲解析語法的語言上(中文極性在句末、日文動詞在句末),早期承諾可能倒置意義。基準附錄記錄了一個這樣的案例。
- 您需要翻譯電話通話——撥打 PSTN 號碼並在線路上運行翻譯。Gemini Live API 是開發者的建構模組,不是電話通話提供者。
誠實的讓步。 發布本指南的產品 LiveLingo 在這些維度的大多數上符合第二欄:串流文字 + 音訊輸出、每位說話者歸屬、單調門控承諾因此顯示的翻譯永不撤回、翻譯撥出電話通話。然而,LiveLingo 的音訊輸出使用主機平台的預設文字轉語音引擎(Apple 裝置上的 iOS 原生),聽起來不如 Gemini 3.5 即時翻譯生成語音自然。這是 Google 今天已交付的真正優勢。在 livelingo.io/compare/google-translate 並排比較規格,或在 livelingo.io/research/benchmark-2026 查看測量基準數據。
8. 8. 常見問題
Gemini 3.5 即時翻譯是什麼?
Gemini 3.5 即時翻譯是 Google 於 2026 年 6 月 9 日發布的串流語音轉語音翻譯模型。它基於 Gemini 3 Pro 建構,生成保留說話者語調、節奏和音調的翻譯音訊,並自動偵測 70+ 種語言。開發者可透過 Gemini Live API 和 Google AI Studio(公開預覽)存取,消費者可透過 Android 和 iOS 上的 Google 翻譯應用程式存取,特定 Google Workspace 客戶可透過 Google Meet(私人預覽)存取。
Gemini 3.5 即時翻譯支援哪些語言?
超過 70 種語言,自動偵測。特別在 Google Meet 中,這將先前的覆蓋範圍從 5 種語言擴展到 70+ 種語言,並在單次會議中支援超過 2,000 種來源/目標組合。
Gemini 3.5 即時翻譯的費用是多少?
對消費者而言,Google 翻譯應用程式是免費的。透過 Gemini Live API 和 Google AI Studio 的開發者存取按 Google 標準 API 費率定價——請查看 Google AI Studio 了解當前定價。透過 Google Meet 的企業存取截至 2026 年 6 月 9 日僅限特定 Google Workspace 客戶的私人預覽。
Gemini 3.5 即時翻譯如何處理多位說話者?
根據 Google DeepMind 發布的 Gemini 3.5 Audio 模型卡片:「語音可能不一致,語音可能在長時間暫停後改變、改變性別,或在快速多說話者會話中卡在一個語音上。」實際上:一對一對話和有明確暫停的輪流討論效果良好;快速多說話者情境是已記錄的弱點。翻譯音訊輸出中沒有每位說話者歸屬。
Gemini 3.5 即時翻譯會輸出文字嗎?
主要輸出是翻譯語音。文字轉錄可用,但僅作為語音輸出的附帶功能——沒有串流文字模式,翻譯模式 API 不接受文字輸入。
Gemini 3.5 即時翻譯的測量延遲是多少?
Google 描述系統「落後說話者幾秒鐘」。LiveLingo Research 在發布日的獨立測量記錄了 120 個測試話語的中位數首次音訊延遲為 2,947 毫秒(p10–p90:2,859–3,104 毫秒)——大約 3 秒的恆定說話延遲。來源:livelingo.io/research/benchmark-2026。
Gemini 3.5 即時翻譯何時發布?
Google 於 2026 年 6 月 9 日宣布並開始推出 Gemini 3.5 即時翻譯,涵蓋 Gemini Live API 和 Google AI Studio(開發者公開預覽)、Android 和 iOS 上的 Google 翻譯應用程式(從當天開始全球推出),以及 Google Meet(特定 Workspace 客戶私人預覽)。
9. 9. 資料來源
- Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Google blog, June 9, 2026. blog.google
- Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
- MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, June 9, 2026. marktechpost.com
- LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, June 9, 2026. livelingo.io/research/benchmark-2026