Gemini 3.5 Live Translate：機能・制限・仕組み完全ガイド（2026年）

多言語ビデオ通話中の多様な専門家たち、話者間で翻訳された音声が継続的に流れている様子

1. 1. Gemini 3.5 Live Translateとは

Gemini 3.5 Live Translateは、Googleが2026年6月9日に発表したストリーミング音声間翻訳モデルです。従来の翻訳製品とは2つの特徴で差別化されています。

第一に、従来の音声→テキスト→翻訳→テキスト→音声のパイプラインではなく、音声から音声への直接変換を行います。このモデルは100ミリ秒単位でストリーミングされる音声を受け取り、翻訳された音声を出力します。テキスト転写は利用可能ですが、音声出力の付随機能としてのみ提供され、ストリーミングテキストモードや翻訳音声での話者識別機能はありません。

第二に、生成される音声は話者の韻律を保持するよう設計されています。Googleの発表によると、出力は話者のイントネーション、ペース、ピッチを保持します。実際には、これにより標準的なテキスト読み上げエンジンが翻訳を読み上げるよりもはるかに自然な翻訳音声が生成されます。これは、音声出力が標準的なTTSレイヤーを通る音声翻訳システムに対する真の優位性です。

このモデルはGemini 3 Proをベースに構築されています。Google DeepMindが公開したGemini 3.5 Audioモデルカードによると、最大128Kトークンのコンテキストウィンドウで音声入力を受け付け、最大64Kトークンの音声+テキスト出力を生成します。話者間の急速な言語切り替えを含む70以上の言語を自動検出しますが、その検出には文書化された弱点があります（セクション4で説明）。

このローンチは3つの製品面で並行して展開されます：Gemini Live APIとGoogle AI Studioを通じた開発者アクセス（2026年6月9日からパブリックプレビュー）、AndroidとiOSのGoogle翻訳アプリを通じた消費者アクセス（同日から世界的に展開開始、Androidでは新しい「リスニングモード」を搭載）、そして選ばれたGoogle Workspaceカスタマー向けのGoogle Meetを通じたエンタープライズアクセス（プライベートプレビュー）で、Meetの翻訳対応を5言語から70以上の言語に拡張し、単一の会議内で2,000以上のソース・ターゲット組み合わせをサポートします。

2. 2. 仕組み：音声間アーキテクチャと韻律保持

3つのアーキテクチャ上の選択により、Gemini 3.5 Live Translateは従来のストリーミング翻訳システムと差別化されています。

音声→音声変換（音声→テキスト→音声ではない）

従来のパイプラインでは、音声をストリーミング音声認識モデルに通し、転写を機械翻訳モデルに送り、翻訳を別のテキスト読み上げモデルで合成します。各段階でレイテンシが追加され、エラーが蓄積されます。Gemini 3.5 Live Translateは、これらのステップを1つの音声モデルに統合します。トレードオフ：出力は永続的な音声であり、編集可能なテキストではありません。一度単語が話されると、発話の途中で修正することはできません。

継続的ストリーミング（ターン制ではない）

Googleの発表では、このモデルを「品質向上のためにコンテキストを待つことと、話者との同期を保つために即座に翻訳することのトレードオフのバランスを取る」ものとして位置づけています。Google翻訳の従来の会話モードなどの以前の消費者向け製品はターン制でした：タップ、話す、システムが翻訳を確定して出力するまで待つ、そして相手がタップする。Gemini 3.5 Live Translateは、ソース話者がまだ話している間に継続的に翻訳音声を出力し、Googleは「数秒」の遅延と説明しています。

韻律転送

このモデルは、ソース話者の音声特性（イントネーション、ペース、強調、ピッチ）を翻訳音声に引き継ぐよう設計されています。これが出力がロボット的ではなく自然に聞こえる主な技術的理由です。また、これがGoogleのモデルカードが開示する音声一貫性の制限の原因でもあります（セクション4）。

開発者向けでは、各セッションは16ビットPCM 16kHzモノラル音声を入力として使用し、100ミリ秒単位で送信される24kHzモノラルPCM音声を出力として生成します。生成されたすべての音声にはGoogleのSynthID透かしが含まれています。これは波形に織り込まれた知覚できない署名で、下流システムが音声を機械生成として識別できるようにします。

音声波形と言語選択を表示するストリーミング音声翻訳インターフェースを表示するスマートフォン

3. 3. Gemini 3.5 Live Translateが最も優れている分野

Gemini 3.5 Live Translateを同類製品と比較すると、5つの製品の強みがすぐに明らかになります。

自然な翻訳音声。 韻律を保持する音声は、音声出力が汎用TTSエンジンを通る音声翻訳システムに対する最も明確な優位性です。単語の羅列を平坦なナレーターが読み上げるような音声翻訳アプリを使ったことがあれば、その違いは即座に分かります。Gemini 3.5 Live Translateはこの点で大幅に優れており、その違いは最初の文で聞き取れます。

音声間変換のシンプルさ。 音声翻訳アプリケーションの構築は、従来、ストリーミングSTTモデル（Whisper-large、Google Cloud Speech-to-Text、Azure Speech）、翻訳モデル、TTSエンジンを連鎖させ、それぞれの部分出力セマンティクスを管理することを意味していました。Gemini 3.5 Live Translateは、この連鎖を1つのAPI呼び出しで置き換え、アプリケーションコードと障害面の両方を簡素化します。

大規模な自動言語検出。 70以上の言語を自動検出し、ユーザーが事前に言語ペアを設定する必要がありません。Googleの位置づけでは、話者が会話の途中で言語を切り替える多者間会議などの使用例を重視しています。

配信力。 Google翻訳消費者アプリとGoogle Meetに直接組み込まれています。エンドユーザーにとって、インストールと発見のコストはほぼゼロです。すでにアプリを持っているからです。Meetの顧客にとって、翻訳は既に使用中のワークフロー内の機能切り替えとして提供されます。

透かし入り出力。 SynthID透かしにより、生成された音声をAI生成として識別可能にし、AI生成コンテンツを追跡する必要がある規制業界での下流コンプライアンス使用例に有用です。

4. 4. Googleの公式モデルカードが認める制限

Google DeepMindが公開したGemini 3.5 Audioモデルカードは、Gemini 3.5 Live Translateの具体的な既知の制限を文書化しています。カードから直接引用します：

言語検出

「言語検出は、非ネイティブアクセント、類似言語、または急速な言語切り替えで困難を抱える可能性があります。」実際的な意味：話者が強いアクセントを持つ場合、またはソース言語が関連言語に近い場合（ポルトガル語対スペイン語、ノルウェー語対スウェーデン語）、または会話が急速に言語を切り替える場合、検出器が間違ったソース言語を選択し、それに応じて翻訳する可能性があります。

複数話者セッションでの音声一貫性

「音声は一貫性がなく、長い休止後に音声が変わったり、性別が変わったり、急速な複数話者セッション中に1つの音声に固着したりする可能性があります。」これは多くの使用例で最も実際的に重要な制限です。複数の話者が急速にターンを取る会議では、モデルがすべての翻訳出力を1つの音声で生成する可能性があり、リスナーが会話を追うために依存する話者識別を失います。

ノイズフィルタリング

「背景ノイズをフィルタリングするよう設計されていますが、すべての背景音声が無視されるとは限りません。」実世界の環境では、一部の条件下でノイズが漏れることがあります。

翻訳モード制約（開発者API）

Googleの開発者文書を引用した発表報道によると、「翻訳モードではテキスト入力はサポートされていません」、モデルは「このモードでツール使用とシステム指示を削除します」。開発者にとって、翻訳API呼び出しは制約された面です。テキストを送信できず、より広いGeminiツールエコシステムを使用できず、システムプロンプトを注入できません。翻訳入力、翻訳出力のみです。

5. 5. LiveLingo 2026ベンチマークからの独立測定

LiveLingo Researchは、発表日（2026年6月9日）にGemini 3.5 Live Translateを、Google Cloud STT v2 + Translation v3、Azure Speech Translation、Whisper-large + GPT-4o-miniの元のベンチマークで使用されたのと同じプロトコルで評価しました。完全な補遺はlivelingo.io/research/benchmark-2026#comprehension-gemini-liveで公開されており、主要な数値は以下の通りです。

理解忠実度総合：4.93 / 5 120発話と4言語ペア（en→es、en→zh-CN、en→ja、en→de）にわたって。これはベンチマークの4つの競合システム中で最も強い結果です。次に近いスコアは4.77（Google Cloud Translation v3）です。

初回音声レイテンシ：中央値2,947ms 発話開始から最初の翻訳音声まで（p10–p90：2,859–3,104ms）。これは約3秒の一定の発話遅延で、Googleの「話者から数秒遅れ」という説明と一致しています。

出力は翻訳音声のみ。 APIにはストリーミングテキストモードがなく、話者別の識別もありません。テキスト転写は音声出力の付随として利用可能です。音声出力は出力後に修正できません。

コードスイッチングされた音声。 86秒で英語の街頭インタビューに切り替わるマンダリン語のニュースクリップにおいて、LiveLingoのベンチマークは、翻訳出力が毎回切り替え点で停止することを記録しました。出力言語ですでに話されている音声は翻訳も転写もされないため、コンテンツの最後の34秒（クリップの約28%）は、エラーが表示されることなくリスナーにとって静かに消えてしまいます。OpenAIのgpt-realtime-translateも同じクリップで同じ動作を示し、OpenAIは出力言語の音声をスキップすることを意図していると文書化しています。これは、混合言語オーディオにおける現在の音声間翻訳の構造的な限界です。

遅延解決構文での事実反転。 中国語のビジネススピーチクリップで、15%の売上増加を説明する文が、売上を15%増加させる目標として英語でレンダリングされました。これは、ソース言語が意味を担う要素（極性、時間参照、主語）を文の後半まで延期する場合に、取り消し不可能な文中音声コミットが生成するエラークラスです。

これらは独立した測定であり、Googleの数値ではありません。方法論と発話ごとの生データは公開された補遺にあります。

6. 6. Gemini 3.5 Live Translateへのアクセス方法

消費者向け — Google翻訳アプリ

AndroidまたはiOSでGoogle翻訳アプリを最新バージョンに更新してください。Live Translateモードは2026年6月9日から世界的に展開されています。利用可能性は、お住まいの地域のストア展開スケジュールによります。Androidでは、新しい「リスニングモード」により、デバイスのイヤピースを通じて翻訳音声を直接聞くことができます。

開発者向け — Gemini Live API + Google AI Studio

このモデルは、Gemini Live APIとGoogle AI Studioを通じてパブリックプレビューで利用可能です。発表報道によると、統合制約は具体的です：音声入力のみ（翻訳モードではテキスト入力なし）、ツール使用やシステム指示なし、100ms単位でチャンクされた16ビットPCM 16kHzモノラル入力、24kHz PCM出力。現在のクォータと価格についてはGoogle AI Studioを参照してください。

エンタープライズ向け — Google Meet

Gemini 3.5 Live Translateは、2026年6月9日時点で選ばれたGoogle Workspaceカスタマー向けにプライベートプレビューで提供されています。有効化されると、Meetの翻訳対応を5言語から70以上の言語に拡張し、単一の会議内で2,000以上のソース・ターゲット組み合わせをサポートします。利用可能性は段階的で、全般的ではありません。

7. 7. Gemini 3.5を使うべき場合 — そして他のツールが適している場合

Gemini 3.5 Live Translateが適している場合

翻訳テキストではなく翻訳音声が欲しい場合。自然な音声出力が製品の最大の優位性です。
すでにGoogle翻訳アプリやGoogle Meetを使っている場合。統合の発見と使用コストはゼロです。
会話が1対1、または話者間に明確な休止がある明確なターン制の場合。Googleのモデルカードが開示する音声一貫性の制限は、これらのコンテキストでは弱くなります。
STT → MT → TTSチェーンを単一のAPIに簡素化することが、各段階の細かい制御よりも重要な開発者アプリケーションを構築している場合。
音声出力での話者識別なし、ストリーミングテキスト転写なしで対応できる場合。

他のツールを好む場合

音声と並行して、または音声の代わりにストリーミングテキストが必要な場合。ストリーミングテキストは、ライブキャプション、会議翻訳、アクセシビリティシナリオ中に、ほとんどの本番インターフェースが画面に表示するものです。Gemini 3.5 Live Translateのテキストは付随のみです。
翻訳出力で話者別識別が必要な場合。モデルカードの「急速な複数話者セッション中に1つの音声に固着する可能性がある」という開示により、これは会議での実際のリスクになります。
表現力よりも安定性が重要な会話を翻訳する場合。音声出力は発話の途中で修正できないため、遅延解決構文を持つ言語（中国語の文末極性、日本語の文末動詞）では、早期のコミットが意味を反転させる可能性があります。ベンチマーク補遺はそのような事例を1つ文書化しています。
翻訳電話通話が必要な場合 — 回線上で翻訳が実行されているPSTN番号への発信。Gemini Live APIは開発者向けの構成要素であり、電話通話プロバイダーではありません。

正直な譲歩。 このガイドを公開しているLiveLingo製品は、これらの次元のほとんどで2番目の列に適合します：ストリーミングテキスト+音声出力、話者別識別、表示された翻訳が取り消されることのない単調ゲート付きコミット、翻訳発信電話通話。しかし、LiveLingoの音声出力は、ホストプラットフォームのデフォルトテキスト読み上げエンジン（AppleデバイスではiOSネイティブ）を使用しており、Gemini 3.5 Live Translateの生成音声ほど自然に聞こえません。これはGoogleが今日出荷した真の優位性です。仕様を並べて比較するにはlivelingo.io/compare/google-translate、または測定されたベンチマーク数値はlivelingo.io/research/benchmark-2026をご覧ください。

8. 8. よくある質問

Gemini 3.5 Live Translateとは何ですか？

Gemini 3.5 Live Translateは、Googleが2026年6月9日にリリースしたストリーミング音声間翻訳モデルです。Gemini 3 Proをベースに構築され、話者のイントネーション、ペース、ピッチを保持する翻訳音声を生成し、70以上の言語を自動検出します。開発者にはGemini Live APIとGoogle AI Studio（パブリックプレビュー）、消費者にはAndroidとiOSのGoogle翻訳アプリ、選ばれたGoogle WorkspaceカスタマーにはGoogle Meet（プライベートプレビュー）を通じて利用可能です。

Gemini 3.5 Live Translateはどの言語をサポートしていますか？

70以上の言語を自動検出でサポートしています。Google Meetでは具体的に、以前の5言語から70以上の言語にカバレッジを拡張し、単一の会議内で2,000以上のソース・ターゲット組み合わせをサポートします。

Gemini 3.5 Live Translateの料金はいくらですか？

消費者向けには、Google翻訳アプリは無料です。Gemini Live APIとGoogle AI Studioを通じた開発者アクセスは、GoogleのAPI標準料金で価格設定されています。現在の価格についてはGoogle AI Studioを確認してください。Google Meetを通じたエンタープライズアクセスは、2026年6月9日時点で選ばれたGoogle Workspaceカスタマーのプライベートプレビューに限定されています。

Gemini 3.5 Live Translateは複数話者をどう処理しますか？

Google DeepMindが公開したGemini 3.5 Audioモデルカードによると：「音声は一貫性がなく、長い休止後に音声が変わったり、性別が変わったり、急速な複数話者セッション中に1つの音声に固着したりする可能性があります。」実際的には：1対1の会話や明確な休止がある順番制の議論はうまく機能しますが、急速な複数話者シナリオは文書化された弱点です。翻訳音声出力には話者別識別はありません。

Gemini 3.5 Live Translateはテキストを出力しますか？

主要な出力は翻訳音声です。テキスト転写は利用可能ですが、音声出力の付随としてのみです。ストリーミングテキストモードはなく、翻訳モードAPIはテキスト入力を受け付けません。

Gemini 3.5 Live Translateの測定レイテンシはどれくらいですか？

Googleはシステムを話者から「数秒遅れ」と説明しています。発表日のLiveLingo Researchによる独立測定では、120のテスト発話にわたって中央値2,947ms（p10–p90：2,859–3,104ms）の初回音声レイテンシを記録しました。これは約3秒の一定の発話遅延です。出典：livelingo.io/research/benchmark-2026。

Gemini 3.5 Live Translateはいつリリースされましたか？

Googleは2026年6月9日にGemini 3.5 Live Translateを発表し、展開を開始しました。Gemini Live APIとGoogle AI Studio（開発者パブリックプレビュー）、AndroidとiOSのGoogle翻訳アプリ（同日から世界的展開開始）、Google Meet（選ばれたWorkspaceカスタマー向けプライベートプレビュー）で利用可能です。

9. 9. 出典

Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Google blog, June 9, 2026. blog.google
Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, June 9, 2026. marktechpost.com
LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, June 9, 2026. livelingo.io/research/benchmark-2026