OpenAI リアルタイム翻訳（2026年）：ChatGPT音声、gpt-realtime-translate、Whisper+GPT比較

1. 1. OpenAIが2026年に提供するリアルタイム翻訳サービス

2026年6月時点で、3つの異なるサービスが利用可能です：

ChatGPT音声 — ライブ翻訳（コンシューマー向け）。 ChatGPTの音声モードにリアルタイム翻訳機能が組み込まれています。ユーザーはChatGPTアプリのメッセージ作成画面で音声アイコンをタップし、アシスタントに言語間の翻訳を依頼すると、停止や切り替えを指示するまで会話全体を通して翻訳を継続します。これにはChatGPTの有料契約が必要です — Plus、Teams、Enterprise、またはEdu（OpenAIコンシューマー料金ページ；Plusは月額約20ドル）。2026年6月10日時点での確認では、無料プランでのリアルタイム翻訳アクセスはありません。インターフェースは専用翻訳UIではなく会話形式で、ソース/ターゲット言語ペア選択、2列のソース・翻訳済みトランスクリプト、通話発信機能はありません。

`gpt-realtime-translate`（専用APIモデル）。 2026年5月7日、OpenAIはRealtime API内で専用のストリーミング音声間翻訳モデルをリリースしました。OpenAIの発表によると、このモデルは「数千時間のプロ通訳音声で訓練」され、「翻訳専用を維持し、十分なコンテキストを得てから音声を生成する」よう設定されています。70以上の入力言語から13の出力言語への翻訳をサポートし、入力音声1分あたり0.034ドル（OpenAI API料金）で提供されます。OpenAIの発表で名前が挙げられたローンチパートナー：Deutsche Telekom（多言語カスタマーサポート）とVimeo（製品教育動画のリアルタイム翻訳）。

Whisper + GPT-4o-mini（DIYパイプライン）。 従来の開発者向けルートも引き続き利用可能です。Whisper-largeが音声テキスト変換を担当（OpenAIの音声テキスト変換ガイドによると99言語；OpenAIのAPI料金ページで音声1分あたり0.006ドル）、GPT-4o-miniが翻訳を処理（同ソースでトークン単価）。組み合わせることで任意の言語ペアをサポート — `gpt-realtime-translate`の13出力言語制限がない — 開発者はチャンク分割、プロンプト、用語集処理、出力形式を完全制御できます。代償はエンジニアリング工数：WhisperのAPIは連続音声を発話境界にセグメント化しないため、開発者が音声活動検出（VAD）、エンドポイント論理、幻覚フィルタリング、ストリーミングUI、テレフォニーを提供する必要があります。

2. 2. ChatGPT音声 — ライブ翻訳モード（コンシューマー向け）

ChatGPT音声のリアルタイム翻訳は、iOS、Android、ウェブ上のコンシューマー向けChatGPTアプリ内で動作します。ユーザーは音声セッションを開き、「英語と日本語の間で翻訳して」などの翻訳指示をアシスタントに与えます。モデルはその後、ユーザーが停止、言語切り替え、またはセッション終了を指示するまで、各話者の発話を要求されたターゲット言語に継続的に翻訳します。

アクセスには有料ChatGPT契約が必要。 ライブ翻訳機能付きのアップグレード音声モードは、ChatGPT Plus（OpenAIのコンシューマー料金ページで月額約20ドル）、Teams、Enterprise、Eduユーザーが利用可能；アクセスはメッセージ作成画面の音声アイコンから開始（chatgpt.com/features/voiceで文書化され、Tom's Guideと9to5Macのローンチ報道で確認）。2026年6月10日時点での確認では、ライブ翻訳機能は無料プランでは提供されていません。

インターフェースが提供するもの、提供しないもの。 ユーザーエクスペリエンスは会話形式の音声セッション — 1対1の言語間交流や小規模な対面会話には自然です。ソース/ターゲット言語選択機能、聞きながら読める2列のソース・翻訳済みトランスクリプトペア、セッションエクスポート、会議メモ、発信通話機能を含む専用翻訳UIは提供されません。モデルは音声活動とターン管理を内部で処理；ユーザーはエンドポイントタイミング、用語集、プロンプトスタイルを明示的に制御できません。

基盤モデルと動作。 ChatGPT音声のライブ翻訳は、OpenAIのRealtimeモデルファミリー上に構築されています。2026年5月7日リリースのローンチ報道（Tom's Guide、9to5Mac、Slator）によると、コンシューマー音声サーフェスは`gpt-realtime-translate`をホストするのと同じRealtimeインフラを使用し、その上にコンシューマーアプリレイヤーの音声活動検出、会話状態、UI描画が追加されています。2026年6月10日時点で、OpenAIの公開モデルドキュメントにはコンシューマー音声翻訳バリアント用の個別モデルカードの記載はありません。

3. 3. gpt-realtime-translate — 専用APIモデル

`gpt-realtime-translate`は、2026年5月7日にRealtime API内でリリースされたOpenAI初の専用翻訳モデルです。ストリーミング音声間変換が2つの独立してプロンプトされたAPI呼び出しではなく、単一モデルで実行される点で、DIYのWhisper + GPT-4o-miniルートとは異なります。

仕様。 OpenAIの開発者クックブックによると：70以上の入力言語を自動検出、13の出力言語。料金は入力音声1分あたり0.034ドル。翻訳音声に加えて、ソース音声と翻訳出力の両方のテキストトランスクリプトを返します — コンシューマー向けChatGPT音声モードでは公開されないトランスクリプト機能。話者属性なし、音声選択なし。発話された出力は発話後に修正できません。

訓練と動作。 OpenAIは、このモデルが「数千時間のプロ通訳音声で訓練されており、翻訳専用を維持し、十分なコンテキストを得てから音声を生成するのに役立つ」と述べています。OpenAI自身の評価では、このモデルはヒンディー語、タミル語、テルグ語でテストされた他のどのモデルよりも12.5%低い単語エラー率を実現 — リリースで文書化されたインド系言語の強みです。

翻訳モードの制約。 OpenAIクックブックによると、翻訳モードのAPI呼び出しは一般的なRealtime API使用と比較して制約されたサーフェスです。翻訳モードではテキスト入力はサポートされず、ツール使用とシステム指示は無効 — 入力は音声、出力は音声とトランスクリプト、モデルは汎用音声アシスタントではなく専用通訳として動作します。

4. 4. Whisper + GPT-4o-mini — DIYパイプライン

Whisper + GPT-4o-miniルートは引き続き利用可能で、専用翻訳モデルが提供しない動作を必要とする開発者にとって正しい選択肢です：13言語制限外の任意の出力言語、きめ細かいプロンプトと用語集制御、カスタムチャンク戦略、またはツール使用などの他のRealtime API機能との統合。

仕様。 Whisper-largeは音声テキスト変換で99の入力言語をサポート（OpenAI音声テキスト変換ガイド）、音声1分あたり0.006ドル（OpenAI料金ページ）。GPT-4o-miniがトークン単価で翻訳ステップを処理（同じくOpenAI料金ページ）。2つのサービスは独立したネットワーク呼び出し；1分あたりの総コストはトランスクリプト長に依存しますが、通常は英語ターゲット使用で`gpt-realtime-translate`より安く、エンジニアリング工数は高くなります。

開発者が提供する必要があるもの。 Whisper + GPT-4o-mini上での本格的なリアルタイム音声翻訳には、OpenAIが提供しない以下のコンポーネントが必要です：

音声活動検出（VAD）。 WhisperのAPIは完了した音声チャンクでの転写を提供しますが、連続音声を発話境界にセグメント化しません；開発者は各チャンクをいつ送信するかを決定する別のVADを提供します。これなしでは、発話がいつ終了するかの信号がありません。
エンドポイント論理。より多くの音声を待つか（低レイテンシ、多くの修正）、早期にコミットするか（高レイテンシ、少ない修正）を決定。このトレードオフがユーザーエクスペリエンスを定義します。
幻覚フィルタリング。 Whisperは短いクリップで英語のフィラーテキストを幻覚することが広く報告されています — 一般的なアーティファクトには「Thanks for watching!」や「Subscribe!」があり、訓練コーパス内のYouTubeコンテンツに起因するとされています；openai/whisper GitHubの短いクリップでの幻覚に関する議論を参照。本格的な展開にはこれらのフィルタリングが必要です。
ストリーミングUIプリミティブ。表示テキストが取り消されないゲート付きコミットオーバーレイ、部分チャンクの蓄積、スクロール動作、ソース対翻訳済み表示。
テレフォニー統合（通話使用の場合、Twilio、Telnyxなど）、双方向音声ブリッジングと管轄区域ごとの通話記録開示コンプライアンスを含む。
コスト監視 + レート制限処理。持続的な使用では、1分あたりのコストが定額契約を超える可能性があり、アカウントごとのレート制限にはバックオフ戦略が必要です。

5. 5. 独立測定での性能比較

測定したもの（測定しなかったもの）。以下の数値は、Python SDKを介してプログラム的にアクセスした生の`gpt-realtime-translate` Realtime APIエンドポイントのもので、LiveLingoベンチマークのすべてのAPIティアシステムに均一に適用された同じエネルギーVAD発話境界を使用しています。ChatGPT音声コンシューマーアプリは別途測定していません。 ChatGPT音声は同じRealtimeインフラ上に構築されていますが、コンシューマーサーフェスは独自のクライアントサイドVAD、会話状態、UI描画を追加し、プログラム的にアクセスできないサーバーサイドスムージングを適用する可能性があります。ChatGPT音声ユーザーは、API層の数値が報告するものとは異なる知覚レイテンシ、ラグドリフト、コードスイッチング動作を経験する可能性があります。このセクションが特定の動作（ドリフト、コードスイッチサイレンス）を引用する場合、それらをRealtime APIエンドポイントでの開発者エクスペリエンスの下限として扱い、ChatGPT音声コンシューマーの上限ではありません。Whisper + GPT-4o-mini DIYパイプラインの数値も同様にAPI層のもの — 手動調整された本格的システムではなく、ナイーブなベースラインパイプラインを組み立てた後に開発者が経験するものを反映しています。

再現性。 このセクションのすべての数値は、同じ3つの120秒VOAパブリックドメイン音声クリップ、同じRealtime APIエンドポイント、元の4システムベンチマークで使用された同じPythonハーネスから再現されます。音声（`audio.zip`）、生の発話ごとJSON（`openai-realtime-results.json`）、方法論はlivelingo.io/research/benchmark-2026で公開されています。

gpt-realtime-translate — 測定された動作

テストされたすべてのシステムで最速の初回音声。 評価された120セッション全体で、音声開始から最初の翻訳音声まで中央値711ms（p10–p90：485–1,012ms）。参考として、Gemini 3.5 Live Translateは同じメトリックで約2.9秒を測定 — `gpt-realtime-translate`は初回出力まで約4倍高速です。速度はこのモデルの真の強みです。

理解忠実度複合：4.53 / 5。 元の4システムベンチマークと同じルーブリックと判定プロンプトを使用して、2つの独立したフロンティアLLM判定者（GPT-4o、Gemini 2.5 Flash）によってスコア化、120発話と4言語ペア（en→es、en→zh-CN、en→ja、en→de）全体。これは測定された6システムで最低スコアでした。セルレベルでのLiveLingo対比較：4勝、80引き分け、36敗。繰り返しエラークラス：発話開始時の余分なフレーズ挿入、意味の逆転（例：「I was stressed about work」がストレスを望むものとして描画）、固有名詞の一般名詞への置換。

LiveLingo 2026ベンチマークでの6システム比較（120発話、4言語ペア、2判定者複合）。生データ：livelingo.io/research/benchmark-2026。

システム	理解度（0–5）	初回音声 / TTFレイテンシ	出力サーフェス
LiveLingo	4.96	1,518 ms（コミット済みトランスクリプト）	ストリーミングテキスト + 音声
Gemini 3.5 Live Translate	4.93	~3,100 ms (TTF)	音声（テキストサイドカー）
Google Cloud STT v2 + Translate v3	4.77	~26,736 ms（最終トランスクリプト）	トランスクリプト
Azure Speech Translation	4.65	~4,755 ms（最終トランスクリプト）	トランスクリプト
Whisper + GPT-4o-mini（DIY）	4.63	2,720 ms（最終トランスクリプト）	トランスクリプト
OpenAI gpt-realtime-translate	4.53	~3,800 ms (TTF)	音声 + トランスクリプト

連続音声でのラグドリフト。 初回出力までの速度は優秀ですが、長時間音声では未翻訳バックログが蓄積するにつれて翻訳音声が話者から徐々に遅れます。各ソース発話終了からその発話の翻訳音声到着まで測定：中央値3.8秒、密度の高いpt→en VOAクリップで最大20.3秒遅れ。これは音声間アーキテクチャが生み出すトレードオフ — 音声出力は合成音声の話速によって自然に制限されるため、モデルは人間のペースより速く「追いつく」ことができません。

コードスイッチ音声の失敗。 OpenAIの開発者ドキュメントによると、モデルは既に出力言語になっている音声をスキップする可能性があります。LiveLingoベンチマークのzh→en VOAクリップでは、これは86秒マークでの無音として現れました。ソースが英語音声に切り替わったとき — モデルは無音になり、英語コンテンツを翻訳出力に通しませんでした。Gemini 3.5 Live Translateも同じクリップで同じギャップを示します；これは音声間専用翻訳モデルのクラス問題です（下記コールアウト参照）。ストリーミングテキストトランスクリプトを提供するパイプラインは、コードスイッチコンテンツをドロップする代わりに表示トランスクリプトに通すことができます。

出力サーフェス。 翻訳音声に加えて、ソースと出力の両方のテキストトランスクリプト — Gemini 3.5 Live Translateの音声のみAPIよりもトランスクリプト重視の製品サーフェスに近い。話者属性なし。音声選択なし。発話された出力は発話後に修正できません。

音声間は共通の制限を持つクラス。このセクションの動作は`gpt-realtime-translate`に固有ではありません。GoogleのGemini 3.5 Live Translate、および他の現在の音声間音声翻訳モデルは、同じクラスのトレードオフを継承します：(1) 出力ペースラグドリフト（連続音声で、翻訳音声が話速によって制限され、人間のペースより速く追いつけないため）；(2) コードスイッチサイレンス（モデルが既に出力言語になっている音声をスキップするよう設定されているため）；(3) 合成音声でのインライン話者属性なし；(4) 不可逆的な発話途中コミット（発話音声は表示テキストのように取り消せないため）。ストリーミングテキストトランスクリプトを提供するシステム — OpenAIのDIY Whisper + GPT-4o-miniルートやLiveLingo等のストリーミングトランスクリプト翻訳製品を含む — は、2モデルレイテンシオーバーヘッドまたは異なる出力モダリティのコストで(2)、(3)、(4)を回避します。これをカテゴリの洞察として扱い、1つのモデルの批判ではありません。

Whisper + GPT-4o-mini DIYパイプライン — 測定された動作

同じ3つの120秒VOAクリップで、ナイーブなベースラインWhisper-large + GPT-4o-miniパイプラインは最終トランスクリプトレイテンシ中央値2,720ms（95% CI 1,880–3,396、n=28）を測定し、120秒クリップあたり約22の正規化消去（部分チャンク間のトークン修正）を発生。理解忠実度複合は同じ4言語ペアで4.63 / 5でした。

注目すべき点： DIYパイプラインは専用`gpt-realtime-translate`モデルより高い理解度をスコア（4.63対4.53）。専用モデルは初回出力まで高速で統合が容易ですが、このベンチマークでは古い2モデルパイプラインがソース意味をわずかに正確に読み取ります。差は5点スケールで約0.10以内で、異なる設計優先度を反映 — 専用モデルは速度と運用シンプリシティ、パイプラインはトランスクリプト精度とプロンプト制御。

6. 6. OpenAI公式ドキュメントの開示内容

OpenAIの2026年5月7日発表と開発者ドキュメントから直接引用した声明：

訓練コーパス。「数千時間のプロ通訳音声で訓練されており、翻訳専用を維持し、十分なコンテキストを得てから音声を生成するのに役立つ。」（出典：OpenAI発表。）
言語カバレッジ。 70以上の入力言語から13の出力言語。（出典：OpenAIクックブック。）
インド系言語の強み。 OpenAI自身の評価で、ヒンディー語、タミル語、テルグ語で「テストされた他のどのモデルよりも12.5%低い単語エラー率」。（出典：OpenAI発表。）
コードスイッチング動作。 OpenAIのドキュメントでは、モデルは既に出力言語になっている音声をスキップする可能性があると述べています — コードスイッチ音声で無音を生成する設計選択。
モード制約。翻訳モードでは、テキスト入力はサポートされず、ツール使用とシステム指示は無効。翻訳モード呼び出しは一般的なRealtime APIと比較して制約されたサーフェス。
出力形式（開発者）。音声はチャンク化ストリーミングで生PCMで送受信。正確な形式とチャンクサイズガイダンスについてはRealtime APIガイドを参照。
料金。 `gpt-realtime-translate`は入力音声1分あたり0.034ドル。Whisperは音声1分あたり0.006ドル。GPT-4o-miniはトークン単価。ChatGPT Plusは月額約20ドルで、ChatGPT音声ライブ翻訳アクセスの最低有料ティア。（OpenAI API料金とChatGPTコンシューマー料金。）
文書化されたローンチユーザー。 Deutsche Telekom（多言語カスタマーサポート）とVimeo（製品教育動画のリアルタイム翻訳）。（出典：OpenAI発表。）

7. 7. どのサーフェスをいつ選ぶか — そして他のツールが適合する場合

ChatGPT音声ライブ翻訳を選ぶべき場合

既にChatGPT Plus（またはTeams、Enterprise、Edu）に支払っており、別の契約を追加したくない。
使用ケースが表示トランスクリプトを必要とする多人数会議ではなく、1対1または小規模な対面会話である。
ソース/ターゲット言語選択機能と保存されたトランスクリプトを持つ専用翻訳UIではなく、会話モードインターフェースを受け入れる。
明示的なユーザー制御なしに、モデルが音声活動とターン管理を内部で処理することに満足している。

gpt-realtime-translate（Realtime API）を選ぶべき場合

理解度マージンよりも初回翻訳音声までの時間が重要な開発者アプリケーションを構築している。
出力言語リストが13言語以内に収まる。
OpenAI自身の評価で他の選択肢より12.5% WER削減を報告するインド系言語オーディエンス（ヒンディー語、タミル語、テルグ語）にサービスを提供している。
OpenAIのAPI上にコンシューマー向けレイヤー（UI、テレフォニー、エラー処理、コードスイッチフォールバック）を構築できる。
同じベンチマークでのDIYパイプラインに対する速度対理解度のトレードオフ（4.53/5理解度対4.63）を、2回ではなく1回のAPI呼び出しと引き換えに受け入れる。

Whisper + GPT-4o-mini DIYを選ぶべき場合

13言語制限外の任意の出力言語が必要。
専門語彙やスタイル制約のための完全なプロンプトと用語集制御が必要。
VAD、エンドポイント検出、幻覚フィルタリング、ストリーミングUI、テレフォニーのためのエンジニアリング能力がある。
より低い1分あたり音声コスト（0.006ドルWhisper）を望み、GPT-4o-miniのトークン単価を受け入れられる。
専用翻訳モードが公開しないより広いRealtime API機能サーフェス（ツール使用、システム指示）と翻訳を統合したい。

異なるツールがより適合する可能性がある場合

OpenAIの3つのサーフェスはほとんどのリアルタイム翻訳使用ケースをカバーしますが、それぞれ特定の形状内に存在します：ChatGPT音声は翻訳機能付きチャットボット、`gpt-realtime-translate`は開発者API、Whisper + GPT-4o-miniは構築ブロックのセット。専用翻訳アプリサーフェス — 聞きながら読めるストリーミングテキスト + 音声出力、話者ごとの属性、決して取り消されないゲート付きコミット表示トランスクリプト、翻訳発信通話、契約ゲート外の無料ティア — は異なる製品カテゴリです。LiveLingo（このガイドを公開）はそこに位置します。正直なトレードオフ：LiveLingoの音声出力はホストプラットフォームのデフォルトテキスト読み上げエンジンを通るため、音声は`gpt-realtime-translate`ほど表現力がありません；ChatGPT音声の会話インターフェースは、カジュアルなやり取りでは専用翻訳UIより自然に感じられます。並列仕様：/compare/chatgpt-translation。ベンチマーク数値：/research/benchmark-2026。

8. 8. よくある質問

OpenAIは2026年にどのようなリアルタイム翻訳を提供していますか？

OpenAIは2026年半ばから3つのサーフェスでリアルタイム翻訳を提供しています。ChatGPT音声には有料契約者（Plus、Teams、Enterprise、Edu）向けのライブ翻訳モードが含まれています。`gpt-realtime-translate`は2026年5月7日にリリースされたRealtime API内の専用ストリーミング音声間翻訳モデルで、70以上の入力言語と13の出力言語で入力音声1分あたり0.034ドルで提供。任意の言語ペアを望み、スタック全体を完全制御したい開発者向けには、Whisper-large（音声テキスト変換）とGPT-4o-mini（翻訳）のDIYパイプラインが引き続き利用可能です。

ChatGPT音声ライブ翻訳はどのように動作しますか？

ChatGPTアプリのメッセージ作成画面で音声アイコンをタップし、アシスタントに翻訳を依頼 — 例：「英語と日本語の間で翻訳して」。モデルは停止や言語切り替えを指示されるまでターン間で翻訳を継続。ChatGPT有料契約者（Plus月額約20ドル、Teams、Enterprise、またはEdu）が利用可能。これは会話音声サーフェスで、ソース/ターゲット言語選択機能、ソース・翻訳済みトランスクリプトペア、通話発信機能を持つ専用翻訳UIではありません。

gpt-realtime-translateとは何ですか？

2026年5月7日にリリースされたRealtime API内のOpenAI専用ストリーミング音声間翻訳モデル。数千時間のプロ通訳音声で訓練。70以上の入力言語→13の出力言語。入力音声1分あたり0.034ドルで提供。翻訳音声に加えて、ソースと出力の両方のテキストトランスクリプトを返す。ローンチ時の文書化されたエンタープライズユーザーにはDeutsche TelekomとVimeoが含まれます。

WhisperとGPT-4o-miniでリアルタイム翻訳を構築できますか？

はい。DIYパイプライン（Whisper-large音声1分あたり0.006ドル、99ソース言語；GPT-4o-miniトークン単価）は最も柔軟なOpenAIルートのまま — 任意の言語ペアをサポートし、チャンク分割、プロンプト、出力形式の完全制御を提供。トレードオフはエンジニアリングコスト：WhisperのAPIは連続音声を発話境界にセグメント化しないため、開発者はVAD、エンドポイント論理、幻覚フィルタリング、ストリーミングUI、テレフォニーを構築する必要があります。

gpt-realtime-translateの測定されたレイテンシと理解度は？

LiveLingo Research ベンチマーク補遺（2026年6月10日）では、`gpt-realtime-translate`はテストされたすべてのシステムで最速の初回音声レイテンシを記録 — 音声開始から最初の翻訳音声まで中央値711ms。理解忠実度複合は4.53 / 5で、測定された6システムで最低。連続音声では、翻訳音声が話者から遅れ — 中央値3.8秒、密度の高い音声で最大20.3秒。繰り返しエラー：余分な挿入、意味の逆転、固有名詞の置換。出典：livelingo.io/research/benchmark-2026。

これらの数値はChatGPT音声のユーザーエクスペリエンスを反映していますか？

いいえ。測定された数値は生の`gpt-realtime-translate` Realtime API呼び出しのものです。ChatGPT音声は同じRealtimeインフラ上に構築されていますが、コンシューマーアプリは独自のクライアントサイドVAD、会話状態、UI描画を追加し、別途測定されていないサーバーサイドスムージングを適用する可能性があります。ChatGPT音声ユーザーは、API層の数値が報告するものとは異なる知覚レイテンシ、ラグドリフト、コードスイッチング動作を経験する可能性があります。公開されたベンチマークをRealtime APIエンドポイントでの開発者エクスペリエンスの下限として扱い、ChatGPT音声ユーザーの上限ではありません。

OpenAIはコードスイッチングをどのように処理しますか？

OpenAIの開発者ドキュメントによると、`gpt-realtime-translate`は既に出力言語になっている音声をスキップする可能性があります。LiveLingoベンチマークでは、これはzh→en VOAクリップの86秒マークでの無音として現れ、ソースが英語に切り替わったときに発生。Gemini 3.5 Live Translateも同じクリップで同じギャップを示します。ターゲット言語音声を表示トランスクリプトに通すストリーミングテキストトランスクリプトシステムにはこのギャップがありません。

どのOpenAIサーフェスをいつ選ぶべきですか？

既にChatGPT Plus以上に支払っており、会話インターフェースを受け入れるならChatGPT音声ライブ翻訳。初回音声までの速度が表示テキスト安定性より重要で、出力言語リストが13以内に収まり、コンシューマーサーフェスを上に構築できる開発者アプリケーションなら`gpt-realtime-translate`。任意の出力言語、完全なプロンプトと用語集制御、より低い1分あたりコスト、VAD、エンドポイント検出、幻覚フィルタリング、ストリーミングUI、テレフォニーを構築するエンジニアリング能力が必要ならWhisper + GPT-4o-mini DIY。

9. 9. 出典

OpenAI. Advancing voice intelligence with new models in the API. OpenAIブログ、2026年5月7日。openai.com
OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. OpenAIクックブック。developers.openai.com
OpenAI Developers. Realtime and audio（Realtime APIガイド）。developers.openai.com
OpenAI. ChatGPT Voice mode（コンシューマー機能ページ）。chatgpt.com
OpenAI. API pricing（モデル別料金）。openai.com/api/pricing
OpenAI. ChatGPT pricing（コンシューマーティア）。openai.com/chatgpt/pricing
OpenAI. Speech-to-text guide（Whisperドキュメント）。platform.openai.com
Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time、2026年5月7日。tomsguide.com
9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak、2026年5月7日。9to5mac.com
Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT。slator.com
openai/whisper. GitHub Discussions — 短いクリップでの幻覚。github.com
LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — OpenAI gpt-realtime-translate補遺、2026年6月10日。livelingo.io/research/benchmark-2026
LiveLingo. LiveLingo vs ChatGPT: Real-Time Voice Translation Compared (2026)。livelingo.io/compare/chatgpt-translation

料金、可用性、ローンチユーザー、コンシューマーティアアクセス詳細は2026年6月10日に上記の主要ソースに対して検証済み。OpenAIはティア、料金、言語カバレッジ、モデル動作を変更する可能性があります；特定の数値に依存する前に、現在の状態についてはリンクされたソースを参照してください。