Gemini 3.5 实时翻译：功能、限制与使用指南 (2026)

1. 1. Gemini 3.5实时翻译是什么

Gemini 3.5实时翻译是Google于2026年6月9日宣布的流式语音到语音翻译模型。两个特征使其区别于早期的翻译产品。

首先，它采用音频到音频的方式，而非传统的语音到文本到翻译到文本到语音的流水线。该模型接受以100毫秒为单位的流式源音频，并产生翻译后的语音输出。文本转录是可用的，但仅作为语音输出的附属——没有流式文本模式，翻译音频中也没有说话者归属。

其次，生成的语音旨在保持说话者的韵律特征。Google的公告描述了保留说话者语调、节奏和音高的输出。实际上，这产生的翻译语音听起来比通用文本到语音引擎朗读翻译文本要自然得多——相比那些音频输出通过标准TTS层的语音翻译系统，这是一个真正的优势。

该模型基于Gemini 3 Pro构建。根据Google DeepMind发布的Gemini 3.5音频模型卡片，它接受最多128K令牌上下文窗口的音频输入，并产生最多64K令牌的音频+文本输出。它自动检测70多种语言，包括说话者之间的快速语言切换，尽管该检测存在已记录的弱点（在第4节中介绍）。

发布同时涵盖三个产品界面：通过Gemini Live API和Google AI Studio的开发者访问（自2026年6月9日起公开预览）；通过Android和iOS上的Google翻译应用的消费者访问，从当天开始全球推出，Android上新增"听取模式"；以及通过Google Meet为精选Google Workspace客户提供的企业访问私人预览，将Meet的翻译覆盖范围从5种语言扩展到70多种，并在单次会议中支持超过2,000种源/目标组合。

2. 2. 工作原理：音频到音频架构和韵律保持

三个架构选择使Gemini 3.5实时翻译区别于早期的流式翻译系统。

语音到语音，而非语音到文本到语音

传统流水线将音频通过流式语音到文本模型，将转录文本输入机器翻译模型，然后通过单独的文本到语音模型合成翻译。每个阶段都增加延迟并累积错误。Gemini 3.5实时翻译将这些步骤合并为一个音频模型。权衡之处：输出是永久性音频，而非可编辑文本——一旦说出一个词，就无法在话语中途修改。

连续流式，而非轮流式

Google的公告将该模型描述为"平衡等待上下文以提高质量与立即翻译以与说话者保持同步之间的权衡"。早期的消费者产品如Google翻译之前的对话模式是轮流式的：点击、说话、等待系统完成并输出翻译，然后让对方点击。Gemini 3.5实时翻译在源说话者仍在说话时连续输出翻译语音，Google描述延迟为"几秒钟"。

韵律传递

该模型旨在将源说话者的声音特征——语调、节奏、重音、音高——传递到翻译音频中。这是输出听起来自然而非机械的主要技术原因。这也是Google模型卡片披露的语音一致性限制的来源（第4节）。

在开发者界面上，每个会话使用16位PCM音频16 kHz单声道作为输入，产生24 kHz单声道PCM音频作为输出，以100毫秒块发送。所有生成的音频都带有Google的SynthID水印——一个不可察觉的签名，编织在波形中，允许下游系统识别音频为机器生成。

3. 3. Gemini 3.5实时翻译的优势所在

将Gemini 3.5实时翻译与同类产品比较时，五个产品优势立即显现。

自然的翻译语音。 韵律保持语音是相比那些音频输出通过通用TTS引擎的语音翻译系统的最明显优势。如果您使用过翻译音频听起来像平淡叙述者朗读一串单词的语音翻译应用，对比是立即的。Gemini 3.5实时翻译在这方面明显更好，差异在第一句话就能听出来。

音频到音频的简洁性。 构建语音翻译应用传统上意味着链接流式STT模型（Whisper-large、Google Cloud语音到文本、Azure语音）、翻译模型和TTS引擎——并管理每个的部分输出语义。Gemini 3.5实时翻译用一个API调用替换了这个链条，简化了应用代码和故障面。

大规模自动语言检测。 70多种语言自动检测，用户无需提前设置语言对。Google的定位强调多方会议等使用场景，其中说话者在对话中途切换语言。

分发渠道。 直接内置到Google翻译消费者应用和Google Meet中。对最终用户而言，安装和发现成本接近零——他们已经有了这个应用。对Meet客户而言，翻译作为已在使用的工作流程中的功能切换到达。

水印输出。 SynthID水印使生成的语音可识别为AI生成，用于下游合规使用场景，这对需要跟踪AI生成内容的受监管行业很有用。

4. 4. Google官方模型卡片承认的限制

Google DeepMind发布的Gemini 3.5音频模型卡片记录了Gemini 3.5实时翻译的具体已知限制。直接引用卡片内容：

语言检测

"语言检测可能在非母语口音、相似语言或快速语言切换时遇到困难。" 实际影响：如果说话者有浓重口音，或源语言接近相关语言（葡萄牙语vs西班牙语、挪威语vs瑞典语），或对话快速切换语言，检测器可能选择错误的源语言并相应翻译。

多说话者会话中的语音一致性

"语音可能不一致，语音可能在长时间停顿后发生变化、改变性别，或在快速多说话者会话期间卡在一个语音上。" 这是许多使用场景中最实际重要的限制。在有几个说话者快速轮流的会议中，模型可能用一个语音产生所有翻译输出——失去听众依赖的说话者归属来跟随对话。

噪音过滤

"设计用于过滤背景噪音，但并非所有背景音频都可能被忽略。" 真实世界环境在某些条件下仍会泄漏。

翻译模式约束（开发者API）

根据引用Google开发者文档的发布报道，"翻译模式不支持文本输入"，模型"在此模式下放弃工具使用和系统指令"。对开发者而言，翻译API调用是一个受限界面——您不能发送文本，不能使用更广泛的Gemini工具生态系统，不能注入系统提示。翻译输入，翻译输出。

5. 5. LiveLingo 2026基准测试的独立测量

LiveLingo研究在其发布日（2026年6月9日）使用与原始Google Cloud STT v2 + Translation v3、Azure语音翻译和Whisper-large + GPT-4o-mini基准测试相同的协议评估了Gemini 3.5实时翻译。完整附录发布在livelingo.io/research/benchmark-2026#comprehension-gemini-live；主要数据如下。

理解保真度综合评分：4.93 / 5，涵盖120个话语和四个语言对（en→es、en→zh-CN、en→ja、en→de）。这是基准测试中四个竞争系统中最强的结果；次高分数是4.77（Google Cloud Translation v3）。

首次音频延迟：中位数2,947毫秒，从开始说话到首次翻译音频（p10–p90：2,859–3,104毫秒）。这是约3秒的恒定说话延迟，与Google的"落后几秒钟"描述一致。

输出仅为翻译语音。 API没有流式文本模式，没有按说话者归属。文本转录作为语音输出的附属可用。语音输出一旦发出就无法修改。

语码转换音频。 在一段普通话新闻片段中，于第86秒切换到英语街头采访，LiveLingo基准测试记录到，每次运行时，翻译输出都会在切换处停止：已经处于输出语言的语音既未被翻译也未被转录，因此最后34秒的内容（约占片段的28%）会无声地消失，听众也未收到任何错误提示。OpenAI的gpt-realtime-translate在同一片段上显示出相同的行为，且OpenAI文件记载跳过输出语言语音是预期的行为；这是当前语音到语音翻译器在混合语言音频上的结构性限制。

延迟解析语法的事实倒置。 在一个中文商业演讲片段上，描述15%销售增长的句子在英语中呈现为增加15%销售的目标。这是当源语言将意义承载元素（极性、时间参考、主语）推迟到句子后期时，不可逆的句中音频承诺产生的错误类别。

这些是独立测量，不是Google自己的数据；方法论和原始逐话语数据在发布的附录中。

6. 6. 如何访问Gemini 3.5实时翻译

消费者——Google翻译应用

将Android或iOS上的Google翻译应用更新到最新版本。实时翻译模式从2026年6月9日开始全球推出——可用性取决于您所在地区的应用商店推出时间表。在Android上，新的"听取模式"让您直接通过设备的听筒听到翻译语音。

开发者——Gemini Live API + Google AI Studio

该模型通过Gemini Live API和Google AI Studio在公开预览中可用。根据发布报道，集成约束是具体的：仅音频输入（翻译模式下无文本输入）、无工具使用或系统指令、原始16位PCM 16 kHz单声道输入以100毫秒分块、24 kHz PCM输出。请参考Google AI Studio了解当前配额和定价。

企业——Google Meet

截至2026年6月9日，Gemini 3.5实时翻译为精选Google Workspace客户提供私人预览。在启用的地方，它将Meet的翻译覆盖范围从5种语言扩展到70多种语言，并在单次会议中支持2,000多种源/目标组合。可用性是滚动的，不是通用的。

7. 7. 何时使用Gemini 3.5——何时其他工具更合适

何时Gemini 3.5实时翻译是正确选择

您想要翻译语音，而非翻译文本。自然语音输出是该产品的最大优势。
您已经在Google翻译应用或Google Meet中。集成的发现和使用成本为零。
您的对话是一对一的，或有明确的轮流和说话者之间的停顿。Google模型卡片披露的语音一致性限制在这些情境中较弱。
您正在构建开发者应用，其中将STT → MT → TTS链简化为单个API比对每个阶段的精细控制更重要。
您可以接受音频输出中没有说话者归属，没有流式文本转录。

何时您可能更喜欢不同的工具

您需要流式文本与音频并行或替代音频。流式文本是大多数生产界面在实时字幕、会议翻译和无障碍场景中在屏幕上显示的内容。Gemini 3.5实时翻译的文本仅为附属。
您需要翻译输出中的按说话者归属。模型卡片的"可能在快速多说话者会话期间卡在一个语音上"披露使这对会议来说是真正的风险。
您翻译稳定性比表达性更重要的对话。音频输出无法在话语中途修改，因此在具有延迟解析语法的语言上（中文句末极性、日语句末动词），早期承诺可能倒置意义。基准附录记录了一个这样的案例。
您需要翻译电话通话——拨打PSTN号码并在线路上运行翻译。Gemini Live API是开发者的构建块，不是电话通话提供商。

诚实的让步。 发布本指南的产品LiveLingo在这些维度的大多数上符合第二列：流式文本+音频输出、按说话者归属、单调门控提交因此显示的翻译永不撤回、翻译出站电话通话。然而，LiveLingo的音频输出使用主机平台的默认文本到语音引擎（Apple设备上的iOS原生），听起来不如Gemini 3.5实时翻译的生成语音自然。这是Google今天已发布的真正优势。在livelingo.io/compare/google-translate并排比较规格，或在livelingo.io/research/benchmark-2026查看测量的基准数据。

8. 8. 常见问题

什么是Gemini 3.5实时翻译？

Gemini 3.5实时翻译是Google于2026年6月9日发布的流式语音到语音翻译模型。它基于Gemini 3 Pro构建，生成保持说话者语调、节奏和音高的翻译音频，并自动检测70多种语言。它通过Gemini Live API和Google AI Studio（公开预览）向开发者提供，通过Android和iOS上的Google翻译应用向消费者提供，通过Google Meet向精选Google Workspace客户提供（私人预览）。

Gemini 3.5实时翻译支持哪些语言？

70多种语言，自动检测。具体在Google Meet中，这将之前的覆盖范围从5种语言扩展到70多种语言，并在单次会议中支持超过2,000种源/目标组合。

Gemini 3.5实时翻译费用是多少？

对消费者而言，Google翻译应用是免费的。通过Gemini Live API和Google AI Studio的开发者访问按Google的标准API费率定价——查看Google AI Studio了解当前定价。通过Google Meet的企业访问截至2026年6月9日仅限精选Google Workspace客户的私人预览。

Gemini 3.5实时翻译如何处理多个说话者？

根据Google DeepMind发布的Gemini 3.5音频模型卡片："语音可能不一致，语音可能在长时间停顿后发生变化、改变性别，或在快速多说话者会话期间卡在一个语音上。" 实际上：一对一对话和有明确停顿的轮流讨论效果良好；快速多说话者场景是已记录的弱点。翻译音频输出中没有按说话者归属。

Gemini 3.5实时翻译输出文本吗？

主要输出是翻译语音。文本转录是可用的，但仅作为语音输出的附属——没有流式文本模式，翻译模式API不接受文本输入。

Gemini 3.5实时翻译的测量延迟是多少？

Google将系统描述为"落后说话者几秒钟"。LiveLingo研究在发布日的独立测量记录了120个测试话语的中位数首次音频延迟2,947毫秒（p10–p90：2,859–3,104毫秒）——约3秒的恒定说话延迟。来源：livelingo.io/research/benchmark-2026。

Gemini 3.5实时翻译何时发布？

Google于2026年6月9日宣布并开始推出Gemini 3.5实时翻译，涵盖Gemini Live API和Google AI Studio（开发者公开预览）、Android和iOS上的Google翻译应用（从当天开始全球推出）以及Google Meet（精选Workspace客户私人预览）。

9. 9. 来源

Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Google博客，2026年6月9日。blog.google
Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API，2026年6月9日。marktechpost.com
LiveLingo研究。Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum，2026年6月9日。livelingo.io/research/benchmark-2026