LiveLingoLiveLingoTry free

OpenAI 即時翻譯 (2026):ChatGPT 語音、gpt-realtime-translate 與 Whisper+GPT 比較

截至 2026 年 6 月,OpenAI 在三個介面上提供即時語音翻譯服務:付費訂閱用戶專用的 ChatGPT 語音即時翻譯模式、開發者專用的 Realtime API 中的 `gpt-realtime-translate` 模型,以及仍然是靈活選擇的 Whisper + GPT-4o-mini DIY 管道。本指南將詳細介紹每個介面、它們之間的權衡、OpenAI 官方文件揭露的限制,以及來自已發布可重現基準測試的獨立測量數據。

1. 1. OpenAI 在 2026 年提供的即時翻譯服務

截至 2026 年 6 月,有三個不同的介面可供使用:

ChatGPT 語音 — 即時翻譯(消費者版)。 即時翻譯功能內建於 ChatGPT 的語音模式中。用戶點擊 ChatGPT 應用程式訊息編輯器中的語音圖示,要求助理在語言之間進行翻譯,模型會持續翻譯整個對話,直到被告知停止或切換。這需要付費的 ChatGPT 訂閱 — Plus、Teams、Enterprise 或 Edu(OpenAI 消費者定價頁面;Plus 約 $20/月)。根據我們截至 2026 年 6 月 10 日的檢查,免費版本沒有即時翻譯消費者存取權限。介面是對話式的,而非專用翻譯器 UI;沒有來源/目標語言對選擇器、沒有雙欄來源和翻譯文字記錄,也沒有通話撥號功能。

`gpt-realtime-translate`(專用 API 模型)。 2026 年 5 月 7 日,OpenAI 在 Realtime API 內發布了專為串流語音到語音翻譯而設計的模型。根據 OpenAI 的公告,該模型「基於數千小時的專業口譯音訊進行訓練」,並配置為「保持僅翻譯模式,並在產生語音前等待足夠的上下文」。它支援 70+ 種輸入語言翻譯成 13 種輸出語言,定價為每分鐘輸入音訊 $0.034(OpenAI API 定價)。OpenAI 公告中提及的文件化發布合作夥伴:Deutsche Telekom(多語言客戶支援)和 Vimeo(產品教育影片的即時翻譯)。

Whisper + GPT-4o-mini(DIY 管道)。 原始的開發者路徑仍然可用。Whisper-large 處理語音轉文字(根據 OpenAI 的語音轉文字指南支援 99 種語言OpenAI API 定價頁面上每分鐘音訊 $0.006);GPT-4o-mini 處理翻譯(按 token 計費,同一來源)。結合起來,它們支援任意語言對 — 不受 `gpt-realtime-translate` 13 種輸出語言上限的限制 — 並讓開發者完全控制分塊、提示、詞彙表處理和輸出格式。代價是工程複雜度:Whisper 的 API 不會將連續語音分割成話語邊界,因此開發者需要提供語音活動檢測(VAD)、端點邏輯、幻覺過濾、串流 UI 和電話系統。

2. 2. ChatGPT 語音 — 即時翻譯模式(消費者版)

ChatGPT 語音的即時翻譯功能在 iOS、Android 和網頁版的消費者 ChatGPT 應用程式中運行。用戶開啟語音會話並給助理翻譯指令,例如「在英語和日語之間翻譯」。然後模型會持續將每位說話者的話語翻譯成請求的目標語言,跨越多個回合,直到用戶告訴它停止、切換語言或結束會話。

存取需要付費的 ChatGPT 訂閱。 具有即時翻譯功能的升級語音模式可供 ChatGPT Plus(根據 OpenAI 消費者定價頁面約 $20/月)、Teams、Enterprise 和 Edu 用戶使用;透過訊息編輯器中的語音圖示啟動存取(如 chatgpt.com/features/voice 所記錄,並由 Tom's Guide9to5Mac 的發布報導確認)。根據我們截至 2026 年 6 月 10 日的檢查,免費版本沒有即時翻譯功能。

介面提供的功能,以及不提供的功能。 用戶體驗是對話式語音會話 — 適合一對一跨語言交流或小型面對面對話。它不包括專用翻譯器 UI,沒有來源/目標語言選擇器、沒有可在聆聽時閱讀的雙欄來源和翻譯文字記錄對、沒有會話匯出、沒有會議摘要,也沒有撥出電話功能。模型內部處理語音活動和輪流發言;用戶無法明確控制端點時機、詞彙表或提示風格。

底層模型和行為。 ChatGPT 語音的即時翻譯建立在 OpenAI 的 Realtime 模型系列上。2026 年 5 月 7 日發布的報導(Tom's Guide9to5MacSlator)表明消費者語音介面使用與託管 `gpt-realtime-translate` 相同的 Realtime 基礎設施,在其上層加上消費者應用程式層的語音活動檢測、對話狀態和 UI 渲染。截至 2026 年 6 月 10 日,OpenAI 的公開模型文件沒有描述消費者語音翻譯變體的單獨模型卡。

3. 3. gpt-realtime-translate — 專用 API 模型

`gpt-realtime-translate` 是 OpenAI 首個專為翻譯而設計的模型,於 2026 年 5 月 7 日在 Realtime API 內發布。它與 DIY Whisper + GPT-4o-mini 路徑的不同之處在於,串流語音到語音轉換在單一模型中完成,而不是跨越兩個獨立提示的 API 呼叫。

規格。 根據 OpenAI 的開發者手冊:70+ 種輸入語言自動檢測,13 種輸出語言。定價為每分鐘輸入音訊 $0.034。返回翻譯音訊加上來源語音和翻譯輸出的文字記錄 — 這是消費者 ChatGPT 語音模式沒有公開的文字記錄介面。沒有說話者歸屬,沒有語音選擇。語音輸出一旦發出就無法修改。

訓練和行為。 OpenAI 表示該模型「基於數千小時的專業口譯音訊進行訓練,這有助於它保持僅翻譯模式,並在產生語音前等待足夠的上下文」。在 OpenAI 自己的評估中,該模型在印地語、泰米爾語和泰盧固語上的詞錯誤率比任何其他測試模型低 12.5% — 這是發布中記錄的印度語言優勢。

翻譯模式限制。 根據 OpenAI 手冊,翻譯模式 API 呼叫與一般 Realtime API 使用相比是受限的介面。翻譯模式不支援文字輸入,工具使用和系統指令被禁用 — 輸入是音訊,輸出是音訊加文字記錄,模型表現為專用口譯員而非一般語音助理。

4. 4. Whisper + GPT-4o-mini — DIY 管道

Whisper + GPT-4o-mini 路徑仍然可用,對於需要專用翻譯模型無法提供的行為的開發者來說,它仍然是正確的選擇:13 種語言上限之外的任意輸出語言、細粒度提示和詞彙表控制、自訂分塊策略,或與其他 Realtime API 功能(如工具使用)的整合。

規格。 Whisper-large 支援 99 種輸入語言進行語音轉文字(OpenAI 語音轉文字指南),每分鐘音訊 $0.006(OpenAI 定價頁面)。GPT-4o-mini 處理翻譯步驟,採用按 token 計費(也在 OpenAI 定價頁面上)。這兩個服務是獨立的網路呼叫;每分鐘總成本取決於文字記錄長度,但對於英語目標使用通常低於 `gpt-realtime-translate`,工程努力較高。

開發者需要提供的組件。 在 Whisper + GPT-4o-mini 之上的生產即時語音翻譯需要以下組件,OpenAI 都不提供:

  • 語音活動檢測(VAD)。 Whisper 的 API 在完成的音訊塊上提供轉錄,但不會將連續語音分割成話語邊界;開發者提供單獨的 VAD 來決定何時發送每個塊。沒有它,就沒有話語結束的信號。
  • 端點邏輯。 決定是等待更多音訊(較低延遲,更多修訂)還是提早提交(較高延遲,較少修訂)。這種權衡定義了用戶體驗。
  • 幻覺過濾。 Whisper 被廣泛報告在短片段上會產生英語填充文字幻覺 — 常見的偽影包括「Thanks for watching!」和「Subscribe!」,歸因於其訓練語料庫中的 YouTube 內容;參見 openai/whisper GitHub 關於短片段幻覺的討論。生產部署需要過濾這些。
  • 串流 UI 原語。 門控提交覆蓋層,使顯示的文字不會撤回、部分塊的累積、滾動行為,以及來源與翻譯顯示。
  • 電話整合用於電話通話使用(Twilio、Telnyx 或類似服務),包括雙向音訊橋接和各司法管轄區通話錄音披露合規性。
  • 成本監控 + 速率限制處理。 在持續使用時,每分鐘成本可能超過固定訂閱,每帳戶速率限制需要退避策略。

5. 5. 獨立測量的效能表現

我們測量的內容(以及沒有測量的內容)。 以下數字是針對原始 `gpt-realtime-translate` Realtime API 端點,透過 Python SDK 以程式方式存取,在 LiveLingo 基準測試中對每個 API 層級系統統一應用相同的能量 VAD 話語邊界。我們沒有單獨測量 ChatGPT 語音消費者應用程式。 ChatGPT 語音建立在相同的 Realtime 基礎設施上,但消費者介面添加了自己的客戶端 VAD、對話狀態、UI 渲染,並可能應用我們無法程式存取的伺服器端平滑處理。ChatGPT 語音用戶可能會看到與 API 層級數字報告不同的感知延遲、延遲漂移和代碼切換行為。本節引用的特定行為(漂移、代碼切換靜默)應視為 Realtime API 端點上的開發者體驗下限,而非 ChatGPT 語音消費者上限。Whisper + GPT-4o-mini DIY 管道數字同樣是 API 層級的 — 它們反映開發者在組裝基本基準管道後的體驗,而非手工調整的生產系統。

可重現性。 本節中的每個數字都可從相同的三個 120 秒 VOA 公共領域音訊片段、相同的 Realtime API 端點,以及用於原始四系統基準測試的相同 Python 工具重現。音訊(`audio.zip`)、原始每話語 JSON(`openai-realtime-results.json`)和方法論發布於 livelingo.io/research/benchmark-2026

gpt-realtime-translate — 測量行為

所有測試系統中最快的首次音訊。 在所有 120 個評估會話中,從語音開始到首次翻譯音訊的中位數為 711 毫秒(p10–p90:485–1,012 毫秒)。作為對比,Gemini 3.5 Live Translate 在相同指標上測量約 2.9 秒 — `gpt-realtime-translate` 的首次輸出速度大約快四倍。速度是這個模型的真正優勢。

理解保真度綜合:4.53 / 5。 由兩個獨立的前沿 LLM 評審(GPT-4o、Gemini 2.5 Flash)使用與原始四系統基準測試相同的評分標準和評審提示進行評分,涵蓋 120 個話語和四個語言對(en→es、en→zh-CN、en→ja、en→de)。這是六個測量系統中的最低分數。與 LiveLingo 在單元格級別的正面對比:4 勝、80 平、36 負。重複出現的錯誤類別:話語開始時添加的多餘短語、意義倒置(例如「I was stressed about work」被渲染為希望感到壓力)、專有名詞被常見名詞替換。

LiveLingo 2026 基準測試的六系統比較(120 個話語,四個語言對,2 評審綜合)。原始數據:livelingo.io/research/benchmark-2026

系統理解度(0–5)首次音訊 / TTF 延遲輸出介面
LiveLingo4.961,518 毫秒(提交文字記錄)串流文字 + 音訊
Gemini 3.5 Live Translate4.93~3,100毫秒 (TTF)音訊(文字側車)
Google Cloud STT v2 + Translate v34.77~26,736 毫秒(最終文字記錄)文字記錄
Azure Speech Translation4.65~4,755 毫秒(最終文字記錄)文字記錄
Whisper + GPT-4o-mini(DIY)4.632,720 毫秒(最終文字記錄)文字記錄
**OpenAI gpt-realtime-translate****4.53****~3,800毫秒 (TTF)****音訊 + 文字記錄**

連續語音的延遲漂移。 首次輸出速度優秀,但在延長音訊上,翻譯語音隨著未翻譯積壓的累積逐漸落後於說話者。從每個來源話語結束到該話語翻譯語音到達的測量:中位數 3.8 秒,在密集的 pt→en VOA 片段上最遠落後 20.3 秒。這是音訊到音訊架構創造的權衡 — 語音輸出自然受到合成語音說話速度的限制,因此模型無法以超過人類步調的速度「追趕」。

代碼切換語音失敗。 根據 OpenAI 的開發者文件,模型可能會跳過已經是輸出語言的語音。在 LiveLingo 基準測試的 zh→en VOA 片段中,這在 86 秒標記處表現為靜默,當來源切換到英語語音時 — 模型變得靜默,沒有將英語內容傳遞到翻譯輸出。Gemini 3.5 Live Translate 在相同片段上表現出相同的間隙;這是音訊到音訊專用翻譯模型的類別問題(見下方說明)。提供串流文字記錄的管道可以將代碼切換內容傳遞到顯示的文字記錄,而不是丟棄它。

輸出介面。 翻譯音訊加上來源和輸出的文字記錄 — 更接近文字記錄優先的產品介面,而非 Gemini 3.5 Live Translate 的純音訊 API。沒有說話者歸屬。沒有語音選擇。語音輸出一旦發出就無法修改。

音訊到音訊是具有共同限制的類別。 本節中的行為並非 `gpt-realtime-translate` 獨有。Google 的 Gemini 3.5 Live Translate 和任何其他當前的語音到語音音訊到音訊翻譯模型都繼承了相同類別的權衡:(1) 連續語音的輸出步調延遲漂移,因為翻譯音訊受說話速度限制,無法以超過人類步調的速度追趕;(2) 代碼切換靜默,因為模型配置為跳過已經是輸出語言的語音;(3) 合成音訊中沒有內聯說話者歸屬;(4) 不可逆的話語中途提交,因為語音音訊無法像顯示文字那樣撤回。提供串流文字記錄的系統 — 包括 OpenAI 的 DIY Whisper + GPT-4o-mini 路徑和像 LiveLingo 這樣的串流文字記錄翻譯產品 — 以兩模型延遲開銷或不同輸出模式的代價避免了 (2)、(3) 和 (4)。將此視為類別洞察,而非對單一模型的批評。

Whisper + GPT-4o-mini DIY 管道 — 測量行為

在相同的三個 120 秒 VOA 片段上,基本的 Whisper-large + GPT-4o-mini 管道測量的最終文字記錄延遲中位數為 2,720 毫秒(95% CI 1,880–3,396,n=28),並在每個 120 秒片段中發出約 22 個標準化擦除(跨部分塊的 token 修訂)。在相同四個語言對上的理解保真度綜合為 4.63 / 5。

值得注意的是: DIY 管道的理解分數高於專用 `gpt-realtime-translate` 模型(4.63 vs 4.53)。專用模型首次輸出更快且更容易整合,但在此基準測試中,較舊的雙模型管道讀取來源意義稍微更準確。差異在 5 點量表上約 0.10 以內,反映了不同的設計優先級 — 專用模型追求速度和操作簡單性,管道追求文字記錄準確性和提示控制。

6. 6. OpenAI 官方文件揭露的內容

直接從 OpenAI 2026 年 5 月 7 日公告和開發者文件中提取的聲明:

  • 訓練語料庫。 「基於數千小時的專業口譯音訊進行訓練,這有助於它保持僅翻譯模式,並在產生語音前等待足夠的上下文。」(來源:OpenAI 公告。)
  • 語言覆蓋。 70+ 種輸入語言到 13 種輸出語言。(來源:OpenAI 手冊。)
  • 印度語言優勢。 在 OpenAI 自己的評估中,在印地語、泰米爾語和泰盧固語上「詞錯誤率比任何其他測試模型低 12.5%」。(來源:OpenAI 公告。)
  • 代碼切換行為。 OpenAI 的文件表明模型可能會跳過已經是輸出語言的語音 — 這是在代碼切換音訊上產生靜默的設計選擇。
  • 模式限制。 在翻譯模式中,不支援文字輸入,工具使用和系統指令被禁用。翻譯模式呼叫與一般 Realtime API 相比是受限的介面。
  • 輸出格式(開發者)。 音訊以原始 PCM 格式發送和接收,採用分塊串流。請參考 Realtime API 指南了解確切格式和塊大小指導。
  • 定價。 `gpt-realtime-translate` 每分鐘輸入音訊 $0.034。Whisper 每分鐘音訊 $0.006。GPT-4o-mini 按 token 計費。ChatGPT Plus 約 $20/月,是 ChatGPT 語音即時翻譯存取的最低付費層級。(OpenAI API 定價ChatGPT 消費者定價。)
  • 文件化發布用戶。 Deutsche Telekom(多語言客戶支援)和 Vimeo(產品教育影片的即時翻譯)。(來源:OpenAI 公告。)

7. 7. 何時選擇哪個介面 — 以及何時其他工具更適合

選擇 ChatGPT 語音即時翻譯,如果

  • 您已經為 ChatGPT Plus(或 Teams、Enterprise、Edu)付費,不想添加另一個訂閱。
  • 您的使用情境是一對一或小型面對面對話,而不是需要顯示文字記錄的多方會議。
  • 您接受對話模式介面,而非具有來源/目標語言選擇器和保存文字記錄的專用翻譯器 UI。
  • 您滿意模型內部處理語音活動和輪流發言,沒有明確的用戶控制。

選擇 gpt-realtime-translate(Realtime API),如果

  • 您正在構建開發者應用程式,其中首次翻譯音訊時間比理解邊際更重要。
  • 您的輸出語言清單符合 13 種語言範圍內。
  • 您服務印度語言受眾(印地語、泰米爾語、泰盧固語),OpenAI 自己的評估報告比替代方案減少 12.5% WER。
  • 您可以在 OpenAI API 之上構建面向消費者的層(UI、電話、錯誤處理、代碼切換回退)。
  • 您接受速度與理解的權衡(在相同基準測試中 4.53/5 理解度 vs DIY 管道的 4.63),以換取一個 API 呼叫而非兩個。

選擇 Whisper + GPT-4o-mini DIY,如果

  • 您需要 13 種語言上限之外的任意輸出語言。
  • 您需要完全的提示和詞彙表控制,用於專業詞彙或風格限制。
  • 您有 VAD、端點檢測、幻覺過濾、串流 UI 和電話系統的工程能力。
  • 您想要較低的每分鐘音訊成本($0.006 Whisper)並可以接受按 token 計費的 GPT-4o-mini 定價。
  • 您想要將翻譯與更廣泛的 Realtime API 功能介面(工具使用、系統指令)整合,而專用翻譯模式不公開這些功能。

其他工具可能更適合的情況

OpenAI 的三個介面涵蓋了大多數即時翻譯使用情境,但每個都存在於特定形狀中:ChatGPT 語音是具有翻譯功能的聊天機器人,`gpt-realtime-translate` 是開發者 API,Whisper + GPT-4o-mini 是一組構建塊。專用翻譯器應用程式介面 — 具有可在聆聽時閱讀的串流文字 + 音訊輸出、每位說話者歸屬、永不撤回的門控提交顯示文字記錄、翻譯撥出電話,以及訂閱門檻外的免費層級 — 是不同的產品類別。LiveLingo(發布本指南)位於那裡。誠實的權衡:LiveLingo 的音訊輸出透過主機平台的預設文字轉語音引擎運行,因此語音表達力不如 `gpt-realtime-translate`;ChatGPT 語音的對話介面對於隨意的來回交流可能比專用翻譯器 UI 感覺更自然。並排規格:/compare/chatgpt-translation。基準測試數字:/research/benchmark-2026

8. 8. 常見問題

OpenAI 在 2026 年提供什麼即時翻譯服務?

截至 2026 年中,OpenAI 在三個介面上提供即時翻譯服務。ChatGPT 語音為付費訂閱用戶(Plus、Teams、Enterprise、Edu)包含即時翻譯模式。`gpt-realtime-translate` 是 Realtime API 中的專用串流語音到語音翻譯模型,於 2026 年 5 月 7 日發布,定價為每分鐘輸入音訊 $0.034,支援 70+ 種輸入語言和 13 種輸出語言。Whisper-large(語音轉文字)和 GPT-4o-mini(翻譯)的 DIY 管道仍可供希望任意語言對和完全控制堆疊的開發者使用。

ChatGPT 語音即時翻譯如何運作?

點擊 ChatGPT 應用程式訊息編輯器中的語音圖示,然後要求助理翻譯 — 例如「在英語和日語之間翻譯」。模型會持續跨回合翻譯,直到被告知停止或切換語言。適用於付費 ChatGPT 訂閱用戶(Plus 約 $20/月、Teams、Enterprise 或 Edu)。這是對話式語音介面,不是具有來源/目標語言選擇器、來源和翻譯文字記錄對或通話撥號的專用翻譯器 UI。

什麼是 gpt-realtime-translate?

OpenAI 在 Realtime API 中的專用串流語音到語音翻譯模型,於 2026 年 5 月 7 日發布。基於數千小時的專業口譯音訊進行訓練。70+ 種輸入語言 → 13 種輸出語言。定價為每分鐘輸入音訊 $0.034。返回翻譯音訊加上來源和輸出的文字記錄。發布時記錄的企業用戶包括 Deutsche Telekom 和 Vimeo。

您仍然可以用 Whisper 和 GPT-4o-mini 構建即時翻譯器嗎?

是的。DIY 管道(Whisper-large $0.006/分鐘音訊,99 種來源語言;GPT-4o-mini 按 token 計費)仍然是最靈活的 OpenAI 路徑 — 它支援任意語言對並提供對分塊、提示和輸出格式的完全控制。權衡是工程成本:Whisper 的 API 不會將連續語音分割成話語邊界,因此開發者必須構建 VAD、端點邏輯、幻覺過濾、串流 UI 和電話系統。

gpt-realtime-translate 的測量延遲和理解度如何?

在 LiveLingo Research 基準測試附錄(2026 年 6 月 10 日)中,`gpt-realtime-translate` 在所有測試系統中具有最快的首次音訊延遲 — 從語音開始到首次翻譯音訊的中位數為 711 毫秒。理解保真度綜合為 4.53 / 5,是六個測量系統中的最低分。在連續語音上,翻譯語音落後於說話者 — 中位數 3.8 秒,在密集音訊上漂移高達 20.3 秒。重複錯誤:多餘插入、意義倒置、專有名詞替換。來源:livelingo.io/research/benchmark-2026

這些數字反映 ChatGPT 語音用戶體驗嗎?

不。測量數字是針對原始 `gpt-realtime-translate` Realtime API 呼叫。ChatGPT 語音建立在相同的 Realtime 基礎設施上,但消費者應用程式添加了自己的客戶端 VAD、對話狀態、UI 渲染,並可能應用未單獨測量的伺服器端平滑處理。ChatGPT 語音用戶可能會看到與 API 層級數字報告不同的感知延遲、延遲漂移和代碼切換行為。將已發布的基準測試視為 Realtime API 端點上的開發者體驗下限,而非 ChatGPT 語音用戶上限。

OpenAI 如何處理代碼切換?

根據 OpenAI 的開發者文件,`gpt-realtime-translate` 可能會跳過已經是輸出語言的語音。在 LiveLingo 基準測試中,這在 zh→en VOA 片段的 86 秒標記處表現為靜默,當來源切換到英語時。Gemini 3.5 Live Translate 在相同片段上表現出相同的間隙。將目標語言語音傳遞到顯示文字記錄的串流文字記錄系統沒有這個間隙。

何時應該選擇哪個 OpenAI 介面?

如果您已經為 ChatGPT Plus 或更高版本付費並接受對話介面,選擇 ChatGPT 語音即時翻譯。如果您構建開發者應用程式,其中首次音訊時間比顯示文字穩定性更重要,您的輸出語言清單符合 13 種語言範圍內,並且您可以在其上構建消費者介面,選擇 `gpt-realtime-translate`。如果您需要任意輸出語言、完全的提示和詞彙表控制、較低的每分鐘成本,以及構建 VAD、端點檢測、幻覺過濾、串流 UI 和電話系統的工程能力,選擇 Whisper + GPT-4o-mini DIY。

9. 9. 來源

定價、可用性、發布用戶和消費者層級存取詳情已於 2026 年 6 月 10 日對照上述主要來源進行驗證。OpenAI 可能會更改層級、定價、語言覆蓋和模型行為;在依賴任何特定數字之前,請查閱連結來源以了解當前狀態。

準備突破語言障礙了嗎?

免費試用 LiveLingo — 每天 5 分鐘即時語音翻譯,無需信用卡。升級至 Pro 版可享翻譯通話、AI 會議摘要,以及每月 300 分鐘使用時間。

免費試用 LiveLingo
OpenAI 即時翻譯 (2026):ChatGPT 語音、gpt-realtime-translate 與 Whisper+GPT 比較 | LiveLingo