OpenAI实时翻译(2026)：ChatGPT语音、gpt-realtime-translate和Whisper+GPT对比

1. 1. OpenAI在2026年提供的实时翻译服务

截至2026年6月，有三个不同的平台可用：

ChatGPT语音——实时翻译（消费者版）。 实时翻译功能内置于ChatGPT的语音模式中。用户在ChatGPT应用的消息编辑器中点击语音图标，要求助手在语言之间进行翻译，模型会持续翻译整个对话，直到被告知停止或切换。这需要付费的ChatGPT订阅——Plus、Teams、Enterprise或Edu（OpenAI消费者定价页面；Plus约$20/月）。根据我们截至2026年6月10日的检查，免费版本没有实时翻译消费者访问权限。界面是对话式的，而不是专用的翻译器UI；没有源/目标语言对选择器，没有双列源文本和翻译文本转录，也没有呼叫拨号功能。

`gpt-realtime-translate`（专用API模型）。 2026年5月7日，OpenAI在实时API内发布了专门构建的流式语音到语音翻译模型。根据OpenAI的公告，该模型"在数千小时的专业口译音频上进行训练"，并配置为"保持仅翻译模式，在产生语音之前等待足够的上下文"。它支持70多种输入语言翻译成13种输出语言，定价为每分钟输入音频$0.034（OpenAI API定价）。OpenAI公告中提到的文档化启动合作伙伴：德国电信（多语言客户支持）和Vimeo（产品教育视频的实时翻译）。

Whisper + GPT-4o-mini（DIY管道）。 原始的开发者路径仍然可用。Whisper-large处理语音转文本（根据OpenAI的语音转文本指南支持99种语言；在OpenAI的API定价页面上每分钟音频$0.006）；GPT-4o-mini处理翻译（按令牌定价，同一来源）。结合起来，它们支持任意语言对——不像`gpt-realtime-translate`的13种输出语言上限——并给开发者完全控制分块、提示、词汇表处理和输出格式。成本是工程：Whisper的API不会将连续语音分割成话语边界，因此开发者需要提供语音活动检测（VAD）、端点逻辑、幻觉过滤、流式UI和电话功能。

2. 2. ChatGPT语音——实时翻译模式（消费者版）

带有实时翻译的ChatGPT语音在iOS、Android和网页版的消费者ChatGPT应用中运行。用户打开语音会话并给助手一个翻译指令，如"在英语和日语之间翻译"。然后模型持续将每个说话者的话语翻译成请求的目标语言，跨轮次进行，直到用户告诉它停止、切换语言或结束会话。

访问需要付费的ChatGPT订阅。 带有实时翻译的升级语音模式可供ChatGPT Plus（根据OpenAI消费者定价页面约$20/月）、Teams、Enterprise和Edu用户使用；通过消息编辑器中的语音图标启动访问（如chatgpt.com/features/voice所记录，并由Tom's Guide和9to5Mac的发布报道确认）。根据我们截至2026年6月10日的检查，实时翻译功能在免费版本中不可用。

界面提供什么，不提供什么。 用户体验是对话式语音会话——适合一对一跨语言交流或小型面对面对话。它不包括专用的翻译器UI，没有源/目标语言选择器，没有可以在听的同时阅读的双列源文本和翻译文本转录对，没有会话导出，没有会议备忘录，也没有外拨电话拨号。模型内部处理语音活动和轮次切换；用户对端点时间、词汇表或提示风格没有明确控制。

底层模型和行为。 ChatGPT语音的实时翻译建立在OpenAI的实时模型系列上。2026年5月7日发布的启动报道（Tom's Guide、9to5Mac、Slator）表明消费者语音界面使用与托管`gpt-realtime-translate`相同的实时基础设施，在顶部添加了消费者应用层语音活动检测、对话状态和UI渲染。截至2026年6月10日，OpenAI的公共模型文档没有描述消费者语音翻译变体的单独模型卡。

3. 3. gpt-realtime-translate——专用API模型

`gpt-realtime-translate`是OpenAI的第一个专门构建的翻译模型，于2026年5月7日在实时API内发布。它与DIY Whisper + GPT-4o-mini路径的区别在于，流式语音到语音转换在单个模型中发生，而不是跨两个独立提示的API调用。

规格。 根据OpenAI的开发者手册：70多种输入语言自动检测，13种输出语言。定价每分钟输入音频$0.034。返回翻译音频加上源语音和翻译输出的文本转录——这是消费者ChatGPT语音模式不公开的转录界面。没有说话者归属，没有语音选择。语音输出一旦发出就无法修改。

训练和行为。 OpenAI表示该模型"在数千小时的专业口译音频上进行训练，这有助于它保持仅翻译模式，在产生语音之前等待足够的上下文"。在OpenAI自己的评估中，该模型在印地语、泰米尔语和泰卢固语上的词错误率比任何其他测试模型低12.5%——这是发布中记录的印度语言优势。

翻译模式约束。 根据OpenAI手册，翻译模式API调用与一般实时API使用相比是受限制的界面。翻译模式不支持文本输入，工具使用和系统指令被禁用——输入是音频，输出是音频加转录，模型表现为专用口译员而不是通用语音助手。

4. 4. Whisper + GPT-4o-mini——DIY管道

Whisper + GPT-4o-mini路径仍然可用，对于需要专用翻译模型不提供的行为的开发者来说，它仍然是正确的选择：13种语言上限之外的任意输出语言、细粒度提示和词汇表控制、自定义分块策略，或与其他实时API功能（如工具使用）的集成。

规格。 Whisper-large支持99种输入语言进行语音转文本（OpenAI语音转文本指南），价格为每分钟音频$0.006（OpenAI定价页面）。GPT-4o-mini处理翻译步骤，采用按令牌定价（也在OpenAI定价页面上）。这两个服务是独立的网络调用；每分钟总成本取决于转录长度，但对于英语目标使用通常比`gpt-realtime-translate`更低，工程工作量更高。

开发者需要提供的内容。 在Whisper + GPT-4o-mini之上的生产实时语音翻译需要以下组件，OpenAI都不提供：

语音活动检测（VAD）。 Whisper的API在完成的音频块上提供转录，但不会将连续语音分割成话语边界；开发者提供单独的VAD来决定何时发送每个块。没有它，就没有话语结束的信号。
端点逻辑。决定是等待更多音频（更低延迟，更多修订）还是提前提交（更高延迟，更少修订）。这种权衡定义了用户体验。
幻觉过滤。据广泛报告，Whisper在短片段上会产生英语填充文本幻觉——常见的伪影包括"Thanks for watching!"和"Subscribe!"，归因于其训练语料库中的YouTube内容；参见openai/whisper GitHub关于短片段幻觉的讨论。生产部署需要过滤这些。
流式UI原语。门控提交覆盖层，使显示的文本不会撤回，部分块的累积，滚动行为，以及源文本与翻译文本的显示。
电话集成用于电话通话使用（Twilio、Telnyx或类似），包括双向音频桥接和每个司法管辖区的通话录音披露合规性。
成本监控+速率限制处理。在持续使用时，每分钟成本可能超过固定订阅，每账户速率限制需要退避策略。

5. 5. 独立测量中的性能表现

我们测量了什么（以及我们没有测量什么）。下面的数字是针对原始`gpt-realtime-translate`实时API端点的，通过Python SDK以编程方式访问，对LiveLingo基准测试中的每个API层系统统一应用相同的能量VAD话语边界。我们没有单独测量ChatGPT语音消费者应用。 ChatGPT语音建立在相同的实时基础设施上，但消费者界面添加了自己的客户端VAD、对话状态、UI渲染，并可能应用我们无法以编程方式访问的服务器端平滑。ChatGPT语音用户可能会看到与API层数字报告不同的感知延迟、延迟漂移和代码切换行为。本节引用的特定行为（漂移、代码切换静默）应视为实时API端点上的开发者体验下限，而不是ChatGPT语音消费者上限。Whisper + GPT-4o-mini DIY管道数字同样是API层的——它们反映了开发者在组装朴素基线管道后的体验，而不是手工调优的生产系统。

可重现性。 本节中的每个数字都可以从相同的三个120秒VOA公共领域音频片段、相同的实时API端点和用于原始四系统基准测试的相同Python工具重现。音频（`audio.zip`）、原始每话语JSON（`openai-realtime-results.json`）和方法论发布在livelingo.io/research/benchmark-2026。

gpt-realtime-translate——测量行为

所有测试系统中最快的首次音频。 在所有120个评估会话中，从语音开始到首次翻译音频的中位数为711毫秒（p10–p90：485–1,012毫秒）。作为对比，Gemini 3.5实时翻译在相同指标上测量约2.9秒——`gpt-realtime-translate`首次输出速度大约快四倍。速度是这个模型的真正优势。

理解保真度综合：4.53 / 5。 由两个独立的前沿LLM评判员（GPT-4o、Gemini 2.5 Flash）使用与原始四系统基准测试相同的评分标准和评判提示进行评分，跨120个话语和四个语言对（en→es、en→zh-CN、en→ja、en→de）。这是六个测量系统中的最低分数。与LiveLingo在单元格级别的正面对比：4胜，80平，36负。反复出现的错误类别：话语开始时添加的多余短语，意思颠倒（例如"I was stressed about work"被渲染为希望感到压力），专有名词被常见名词替换。

LiveLingo 2026基准测试中的六系统比较（120个话语，四个语言对，2评判员综合）。原始数据：livelingo.io/research/benchmark-2026。

系统	理解度（0–5）	首次音频/TTF延迟	输出界面
LiveLingo	4.96	1,518毫秒（提交转录）	流式文本+音频
Gemini 3.5实时翻译	4.93	~3,100毫秒 (TTF)	音频（文本附件）
Google Cloud STT v2 + Translate v3	4.77	~26,736毫秒（最终转录）	转录
Azure语音翻译	4.65	~4,755毫秒（最终转录）	转录
Whisper + GPT-4o-mini（DIY）	4.63	2,720毫秒（最终转录）	转录
OpenAI gpt-realtime-translate	4.53	~3,800毫秒 (TTF)	音频+转录

连续语音的延迟漂移。 首次输出速度很好，但在扩展音频上，翻译语音随着未翻译积压的累积逐渐落后于说话者。从每个源话语结束到该话语的翻译语音到达的测量：中位数3.8秒，在密集的pt→en VOA片段上漂移到落后20.3秒。这是音频到音频架构创造的权衡——语音输出自然受到合成语音说话速度的限制，因此模型无法以比人类节奏更快的速度"追赶"。

代码切换语音失败。 根据OpenAI的开发者文档，模型可能跳过已经是输出语言的语音。在LiveLingo基准测试的zh→en VOA片段中，这在86秒标记处表现为静默，当源切换到英语语音时——模型变得静默，没有将英语内容传递到翻译输出。Gemini 3.5实时翻译在同一片段上表现出相同的间隙；这是音频到音频专用翻译模型的类别问题（见下面的说明）。提供流式文本转录的管道可以将代码切换内容传递到显示的转录中，而不是丢弃它。

输出界面。 翻译音频加上源和输出的文本转录——更接近转录优先的产品界面，而不是Gemini 3.5实时翻译的纯音频API。没有说话者归属。没有语音选择。语音输出一旦发出就无法修改。

音频到音频是一个具有共同限制的类别。本节中的行为并非`gpt-realtime-translate`独有。Google的Gemini 3.5实时翻译和任何其他当前的语音到语音音频到音频翻译模型都继承了相同类别的权衡：（1）输出节奏延迟漂移在连续语音上，因为翻译音频受说话速度限制，无法以比人类节奏更快的速度追赶；（2）代码切换静默，因为模型被配置为跳过已经是输出语言的语音；（3）合成音频中没有内联说话者归属；（4）不可逆的话语中途提交，因为语音音频无法像显示文本那样撤回。提供流式文本转录的系统——包括OpenAI的DIY Whisper + GPT-4o-mini路径和像LiveLingo这样的流式转录翻译产品——以两模型延迟开销或不同输出模态的代价避免了（2）、（3）和（4）。将此视为类别洞察，而不是对一个模型的批评。

Whisper + GPT-4o-mini DIY管道——测量行为

在相同的三个120秒VOA片段上，朴素基线Whisper-large + GPT-4o-mini管道测量的最终转录延迟中位数为2,720毫秒（95% CI 1,880–3,396，n=28），每120秒片段发出约22个标准化擦除（跨部分块的令牌修订）。理解保真度综合在相同四个语言对上为4.63 / 5。

值得注意的是： DIY管道的理解分数高于专用`gpt-realtime-translate`模型（4.63 vs 4.53）。专用模型首次输出更快，集成更容易，但在这个基准测试中，较旧的两模型管道读取源意思稍微更准确。差异在5分制上约0.10以内，反映了不同的设计优先级——专用模型的速度和操作简单性，管道的转录准确性和提示控制。

6. 6. OpenAI官方文档披露的内容

直接从OpenAI 2026年5月7日公告和开发者文档中提取的声明：

训练语料库。 "在数千小时的专业口译音频上进行训练，这有助于它保持仅翻译模式，在产生语音之前等待足够的上下文。"（来源：OpenAI公告。）
语言覆盖。 70多种输入语言到13种输出语言。（来源：OpenAI手册。）
印度语言优势。在OpenAI自己的评估中，在印地语、泰米尔语和泰卢固语上"词错误率比任何其他测试模型低12.5%"。（来源：OpenAI公告。）
代码切换行为。 OpenAI的文档表明模型可能跳过已经是输出语言的语音——这是一个设计选择，在代码切换音频上产生静默。
模式约束。在翻译模式下，不支持文本输入，工具使用和系统指令被禁用。翻译模式调用与一般实时API相比是受限制的界面。
输出格式（开发者）。音频以原始PCM格式发送和接收，采用分块流式传输。有关确切格式和块大小指导，请参考实时API指南。
定价。 `gpt-realtime-translate`每分钟输入音频$0.034。Whisper每分钟音频$0.006。GPT-4o-mini按令牌计费。ChatGPT Plus约$20/月，是ChatGPT语音实时翻译访问的最低付费层级。（OpenAI API定价和ChatGPT消费者定价。）
记录的启动用户。德国电信（多语言客户支持）和Vimeo（产品教育视频的实时翻译）。（来源：OpenAI公告。）

7. 7. 何时选择哪个平台——以及何时其他工具更合适

选择ChatGPT语音实时翻译，如果

您已经为ChatGPT Plus（或Teams、Enterprise、Edu）付费，不想添加另一个订阅。
您的使用场景是一对一或小型面对面对话，而不是需要显示转录的多方会议。
您接受对话模式界面，而不是带有源/目标语言选择器和保存转录的专用翻译器UI。
您满意模型内部处理语音活动和轮次切换，没有明确的用户控制。

选择gpt-realtime-translate（实时API），如果

您正在构建一个开发者应用程序，其中首次翻译音频时间比理解边际更重要。
您的输出语言列表适合13种语言以内。
您服务印度语言受众（印地语、泰米尔语、泰卢固语），OpenAI自己的评估报告WER比替代方案减少12.5%。
您可以在OpenAI的API之上构建面向消费者的层（UI、电话、错误处理、代码切换回退）。
您接受速度与理解的权衡（在同一基准测试中4.53/5理解度 vs DIY管道的4.63），以换取一个API调用而不是两个。

选择Whisper + GPT-4o-mini DIY，如果

您需要13种语言上限之外的任意输出语言。
您需要对专业词汇或风格约束的完全提示和词汇表控制。
您有VAD、端点检测、幻觉过滤、流式UI和电话的工程能力。
您想要更低的每分钟音频成本（$0.006 Whisper）并可以接受按令牌的GPT-4o-mini定价。
您想要将翻译与专用翻译模式不公开的更广泛实时API功能界面（工具使用、系统指令）集成。

其他工具可能更适合的地方

OpenAI的三个平台涵盖了大多数实时翻译使用场景，但每个都存在于特定的形状中：ChatGPT语音是带翻译的聊天机器人，`gpt-realtime-translate`是开发者API，Whisper + GPT-4o-mini是一组构建块。专用翻译器应用界面——带有可以在听的同时阅读的流式文本+音频输出、每说话者归属、永不撤回的门控提交显示转录、翻译外拨电话，以及订阅门槛之外的免费层级——是不同的产品类别。LiveLingo（发布本指南）位于那里。诚实的权衡：LiveLingo的音频输出通过主机平台的默认文本转语音引擎运行，因此语音表达不如`gpt-realtime-translate`的丰富；ChatGPT语音的对话界面对于随意的来回交流可能比专用翻译器UI感觉更自然。并排规格：/zh/compare/chatgpt-translation。基准数字：/zh/research/benchmark-2026。

8. 8. 常见问题

OpenAI在2026年提供什么实时翻译？

截至2026年中期，OpenAI在三个平台上提供实时翻译。ChatGPT语音为付费订阅者（Plus、Teams、Enterprise、Edu）包含实时翻译模式。`gpt-realtime-translate`是实时API中的专用流式语音到语音翻译模型，于2026年5月7日发布，定价为每分钟输入音频$0.034，支持70多种输入语言和13种输出语言。Whisper-large（语音转文本）和GPT-4o-mini（翻译）的DIY管道对于想要任意语言对和完全控制堆栈的开发者仍然可用。

ChatGPT语音实时翻译如何工作？

在ChatGPT应用消息编辑器中点击语音图标，然后要求助手翻译——例如"在英语和日语之间翻译"。模型持续跨轮次翻译，直到被告知停止或切换语言。可供付费ChatGPT订阅者使用（Plus约$20/月、Teams、Enterprise或Edu）。这是一个对话语音界面，不是带有源/目标语言选择器、源和翻译转录对或呼叫拨号的专用翻译器UI。

什么是gpt-realtime-translate？

OpenAI在实时API中的专用流式语音到语音翻译模型，于2026年5月7日发布。在数千小时的专业口译音频上训练。70多种输入语言→13种输出语言。定价为每分钟输入音频$0.034。返回翻译音频加上源和输出的文本转录。启动时记录的企业用户包括德国电信和Vimeo。

您仍然可以用Whisper和GPT-4o-mini构建实时翻译器吗？

是的。DIY管道（Whisper-large $0.006/分钟音频，99种源语言；GPT-4o-mini按令牌计费）仍然是最灵活的OpenAI路径——它支持任意语言对，并完全控制分块、提示和输出格式。权衡是工程成本：Whisper的API不会将连续语音分割成话语边界，因此开发者必须构建VAD、端点逻辑、幻觉过滤、流式UI和电话功能。

gpt-realtime-translate的测量延迟和理解度是多少？

在LiveLingo研究基准测试附录（2026年6月10日）中，`gpt-realtime-translate`在所有测试系统中具有最快的首次音频延迟——从语音开始到首次翻译音频的中位数为711毫秒。理解保真度综合为4.53 / 5，是六个测量系统中的最低分。在连续语音上，翻译语音落后于说话者——中位数3.8秒，在密集音频上漂移到20.3秒。反复出现的错误：多余插入、意思颠倒、专有名词替换。来源：livelingo.io/research/benchmark-2026。

这些数字反映ChatGPT语音用户体验吗？

不。测量的数字是针对原始`gpt-realtime-translate`实时API调用的。ChatGPT语音建立在相同的实时基础设施上，但消费者应用添加了自己的客户端VAD、对话状态、UI渲染，并可能应用未单独测量的服务器端平滑。ChatGPT语音用户可能会看到与API层数字报告不同的感知延迟、延迟漂移和代码切换行为。将发布的基准测试视为实时API端点上的开发者体验下限，而不是ChatGPT语音用户上限。

OpenAI如何处理代码切换？

根据OpenAI的开发者文档，`gpt-realtime-translate`可能跳过已经是输出语言的语音。在LiveLingo基准测试中，这在zh→en VOA片段的86秒标记处表现为静默，当源切换到英语时。Gemini 3.5实时翻译在同一片段上表现出相同的间隙。将目标语言语音传递到显示转录的流式文本转录系统没有这个间隙。

何时应该选择哪个OpenAI平台？

如果您已经为ChatGPT Plus或更高版本付费并接受对话界面，选择ChatGPT语音实时翻译。如果您构建一个开发者应用程序，其中首次音频速度比显示文本稳定性更重要，您的输出语言列表适合13种以内，并且您可以在顶部构建消费者界面，选择`gpt-realtime-translate`。如果您需要任意输出语言、完全提示和词汇表控制、更低的每分钟成本，以及构建VAD、端点检测、幻觉过滤、流式UI和电话的工程能力，选择Whisper + GPT-4o-mini DIY。

9. 9. 来源

OpenAI. Advancing voice intelligence with new models in the API. OpenAI博客，2026年5月7日。openai.com
OpenAI开发者。Build Live Translation Apps with gpt-realtime-translate. OpenAI手册。developers.openai.com
OpenAI开发者。Realtime and audio（实时API指南）。developers.openai.com
OpenAI. ChatGPT Voice mode（消费者功能页面）。chatgpt.com
OpenAI. API pricing（每模型费率）。openai.com/api/pricing
OpenAI. ChatGPT pricing（消费者层级）。openai.com/chatgpt/pricing
OpenAI. Speech-to-text guide（Whisper文档）。platform.openai.com
Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time，2026年5月7日。tomsguide.com
9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak，2026年5月7日。9to5mac.com
Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT。slator.com
openai/whisper. GitHub讨论——短片段幻觉。github.com
LiveLingo研究。Real-Time Voice Translation Benchmark 2026 — OpenAI gpt-realtime-translate addendum，2026年6月10日。livelingo.io/research/benchmark-2026
LiveLingo. LiveLingo vs ChatGPT: Real-Time Voice Translation Compared (2026)。livelingo.io/compare/chatgpt-translation

定价、可用性、启动用户和消费者层级访问详细信息已于2026年6月10日根据上述主要来源验证。OpenAI可能会更改层级、定价、语言覆盖和模型行为；在依赖任何具体数字之前，请查阅链接来源以了解当前状态。