Gemini 3.5 Live Translate: функции, ограничения, как работает (2026)

Разнообразные профессионалы на многоязычном видеозвонке с непрерывным потоком переведенной речи между участниками.

1. 1. Что такое Gemini 3.5 Live Translate

Gemini 3.5 Live Translate — это потоковая модель перевода речи в речь, которую Google анонсировала 9 июня 2026 года. Две характеристики отличают её от предыдущих продуктов перевода.

Во-первых, это аудио-в-аудио, а не старый конвейер речь-в-текст-в-перевод-в-текст-в-речь. Модель принимает потоковое исходное аудио порциями по 100 миллисекунд и производит переведенную речь на выходе. Текстовые расшифровки доступны, но только как дополнение к речевому выводу — нет режима потокового текста и нет атрибуции говорящего в переведенном аудио.

Во-вторых, генерируемый голос разработан для сохранения просодии говорящего. В анонсе Google описывается вывод, который сохраняет интонацию, темп и высоту голоса говорящего. На практике это создает переведенный голос, который звучит значительно естественнее, чем обычный движок синтеза речи, читающий перевод вслух — реальное преимущество перед системами речевого перевода, чей аудиовывод проходит через стандартный слой TTS.

Модель построена на Gemini 3 Pro. Согласно карте модели Gemini 3.5 Audio, опубликованной Google DeepMind, она принимает аудиовход с контекстным окном до 128K токенов и производит аудио + текстовый вывод до 64K токенов. Она автоматически определяет более 70 языков, включая быстрые переключения языков между говорящими, хотя это определение имеет документированные слабости (рассмотрены в разделе 4).

Запуск охватывает три продуктовые поверхности параллельно: доступ для разработчиков через Gemini Live API и Google AI Studio (публичная превью с 9 июня 2026 года); потребительский доступ через приложение Google Переводчик на Android и iOS, развертывание по всему миру начиная с этого дня, с новым «режимом прослушивания» на Android; и корпоративный доступ через Google Meet в закрытой превью для избранных клиентов Google Workspace, где он расширяет покрытие перевода Meet с 5 языков до 70+ и поддерживает более 2000 комбинаций исходный/целевой язык в рамках одной встречи.

2. 2. Как это работает: архитектура аудио-в-аудио и сохранение просодии

Три архитектурных решения отличают Gemini 3.5 Live Translate от предыдущих систем потокового перевода.

Речь-в-речь, а не речь-в-текст-в-речь

Традиционные конвейеры пропускают аудио через потоковую модель речь-в-текст, подают расшифровку в модель машинного перевода, затем синтезируют перевод через отдельную модель текст-в-речь. Каждый этап добавляет задержку и накапливает ошибки. Gemini 3.5 Live Translate объединяет эти шаги в одну аудиомодель. Компромисс: вывод — это постоянное аудио, а не редактируемый текст — как только слово произнесено, его нельзя исправить в середине высказывания.

Непрерывная потоковая передача, а не пошаговая

Анонс Google представляет модель как ту, которая «балансирует компромисс между ожиданием контекста для улучшения качества и немедленным переводом для синхронизации с говорящим». Предыдущие потребительские продукты, такие как предыдущий режим разговора Google Переводчика, были пошаговыми: нажми, говори, жди, пока система завершит и выдаст перевод, затем дай другой стороне нажать. Gemini 3.5 Live Translate выдает переведенную речь непрерывно, пока исходный говорящий еще говорит, при этом Google описывает задержку в «несколько секунд».

Передача просодии

Модель разработана для переноса голосовых характеристик исходного говорящего — интонации, темпа, ударений, высоты — в переведенное аудио. Это основная техническая причина того, что вывод звучит естественно, а не роботизированно. Это также источник ограничений голосовой согласованности, которые раскрывает карта модели Google (раздел 4).

На поверхности разработчика каждая сессия использует сырое 16-битное PCM аудио на 16 кГц моно в качестве входа и производит 24 кГц моно PCM аудио в качестве выхода, отправляемое порциями по 100 миллисекунд. Все генерируемое аудио несет водяной знак Google SynthID — незаметную подпись, вплетенную в форму волны, которая позволяет последующим системам идентифицировать аудио как машинно-генерированное.

Смартфон с интерфейсом потокового голосового перевода с аудиоволнами и выбором языка.

3. 3. Где Gemini 3.5 Live Translate наиболее сильна

Пять продуктовых преимуществ сразу проявляются при сравнении Gemini 3.5 Live Translate с конкурентами.

Естественно звучащая переведенная речь. Голос, сохраняющий просодию, — это самое явное преимущество перед системами речевого перевода, чей аудиовывод проходит через обычный движок TTS. Если вы использовали приложение голосового перевода, чье переведенное аудио звучит как плоский диктор, читающий строку слов, контраст очевиден. Gemini 3.5 Live Translate существенно лучше здесь, и разница слышна с первого предложения.

Простота аудио-в-аудио. Создание приложения речевого перевода традиционно означало связывание потоковой модели STT (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), модели перевода и движка TTS — и управление семантикой частичного вывода каждого. Gemini 3.5 Live Translate заменяет эту цепочку одним вызовом API, упрощая как код приложения, так и поверхность отказов.

Автоопределение языка в масштабе. 70+ языков автоматически определяются, без необходимости пользователю заранее устанавливать языковую пару. Позиционирование Google подчеркивает случаи использования, такие как многосторонние встречи, где говорящие переключают языки в середине разговора.

Распространение. Встроена непосредственно в потребительское приложение Google Переводчик и Google Meet. Для конечных пользователей стоимость установки и обнаружения близка к нулю — у них уже есть приложение. Для клиентов Meet перевод приходит как переключатель функции внутри рабочего процесса, который уже используется.

Водяные знаки на выводе. Водяные знаки SynthID делают генерируемую речь идентифицируемой как созданную ИИ для последующих случаев использования соответствия, что полезно в регулируемых отраслях, которым нужно отслеживать контент, созданный ИИ.

4. 4. Что собственная карта модели Google признает как ограничения

Карта модели Gemini 3.5 Audio, опубликованная Google DeepMind, документирует конкретные известные ограничения Gemini 3.5 Live Translate. Цитируя карту напрямую:

Определение языка

«Определение языка может испытывать трудности с неродными акцентами, похожими языками или быстрыми переключениями языков». Практическое значение: если у говорящего сильный акцент, или исходный язык близок к родственному языку (португальский против испанского, норвежский против шведского), или разговор быстро переключает языки, детектор может выбрать неправильный исходный язык и переводить соответственно.

Голосовая согласованность в многоговорящих сессиях

«Голоса могут быть несогласованными, и голоса могут сдвигаться после длинных пауз, менять пол или застревать на одном голосе во время быстрых многоговорящих сессий». Это наиболее практически значимое ограничение для многих случаев использования. На встрече с несколькими говорящими, быстро сменяющими друг друга, модель может производить весь переведенный вывод одним голосом — теряя атрибуцию говорящего, на которую слушатели полагаются для следования разговору.

Фильтрация шума

«Разработана для фильтрации фонового шума, но не все фоновое аудио может быть проигнорировано». Реальные среды все еще будут просачиваться при некоторых условиях.

Ограничения режима перевода (API разработчика)

Согласно освещению запуска, цитирующему документацию разработчика Google, «текстовый ввод не поддерживается в режиме перевода» и модель «отбрасывает использование инструментов и системные инструкции в этом режиме». Для разработчиков API вызов перевода — это ограниченная поверхность — вы не можете отправлять текст, вы не можете использовать более широкую экосистему инструментов Gemini, и вы не можете вводить системные подсказки. Перевод на входе, перевод на выходе.

5. 5. Независимые измерения из бенчмарка LiveLingo 2026

LiveLingo Research оценила Gemini 3.5 Live Translate в день запуска (9 июня 2026 года) по тому же протоколу, который использовался для оригинального бенчмарка Google Cloud STT v2 + Translation v3, Azure Speech Translation и Whisper-large + GPT-4o-mini. Полное приложение опубликовано на livelingo.io/research/benchmark-2026#comprehension-gemini-live; основные цифры ниже.

Композитная точность понимания: 4,93 / 5 по 120 высказываниям и четырем языковым парам (en→es, en→zh-CN, en→ja, en→de). Это самый сильный результат среди четырех конкурирующих систем в бенчмарке; ближайший результат — 4,77 (Google Cloud Translation v3).

Задержка первого аудио: медиана 2947 мс от начала речи до первого переведенного аудио (p10–p90: 2859–3104 мс). Это постоянная задержка речи ~3 секунды, согласующаяся с формулировкой Google «несколько секунд позади».

Вывод только переведенной речи. API не имеет режима потокового текста и атрибуции по говорящим. Текстовые расшифровки доступны как дополнение к речевому выводу. Речевой вывод не может быть исправлен после того, как он выдан.

Аудио с кодовым переключением. На новостном клипе на мандаринском языке, который на 86-й секунде переключается на уличные интервью на английском, бенчмарк LiveLingo зафиксировал, что вывод перевода останавливается при переключении в каждом запуске: речь, уже находящаяся на выходном языке, не переводится и не транскрибируется, поэтому последние 34 секунды контента (~28% клипа) бесшумно исчезают для слушателя без появления ошибки. gpt-realtime-translate от OpenAI демонстрирует такое же поведение на том же клипе, и OpenAI документирует пропуск речи на выходном языке как преднамеренный; это структурное ограничение текущих систем перевода речи в речь для аудио со смешанными языками.

Фактическая инверсия на поздно разрешающемся синтаксисе. На клипе деловой речи на китайском языке предложение, описывающее 15% увеличение продаж, отрендерилось на английском как цель увеличить продажи на 15%. Это класс ошибок, который производит необратимое обязательство аудио в середине предложения, когда исходный язык откладывает несущий смысл элемент (полярность, временную ссылку, подлежащее) до конца предложения.

Это независимые измерения, а не собственные цифры Google; методология и сырые данные по высказываниям находятся в опубликованном приложении.

6. 6. Как получить доступ к Gemini 3.5 Live Translate

Потребители — приложение Google Переводчик

Обновите приложение Google Переводчик до последней версии на Android или iOS. Режим Live Translate развертывается глобально начиная с 9 июня 2026 года — доступность зависит от расписания развертывания магазина в вашем регионе. На Android новый «режим прослушивания» позволяет слышать переведенную речь напрямую через динамик вашего устройства.

Разработчики — Gemini Live API + Google AI Studio

Модель доступна в публичной превью через Gemini Live API и через Google AI Studio. Согласно освещению запуска, ограничения интеграции специфичны: только аудиовход (никакого текстового ввода в режиме перевода), никакого использования инструментов или системных инструкций, сырой 16-битный PCM 16 кГц моно вход порциями по 100 мс, 24 кГц PCM вывод. Обратитесь к Google AI Studio для текущих квот и цен.

Предприятия — Google Meet

Gemini 3.5 Live Translate находится в закрытой превью для избранных клиентов Google Workspace с 9 июня 2026 года. Где включена, она расширяет покрытие перевода Meet с 5 языков до 70+ языков и поддерживает 2000+ комбинаций исходный/целевой в рамках одной встречи. Доступность поэтапная, не универсальная.

7. 7. Когда использовать Gemini 3.5 — и когда лучше подходит другой инструмент

Когда Gemini 3.5 Live Translate — правильный выбор

Вам нужна переведенная речь, а не переведенный текст. Естественный голосовой вывод — самое большое преимущество продукта.
Вы уже в приложении Google Переводчик или Google Meet. Интеграция имеет нулевую стоимость обнаружения и использования.
Ваши разговоры один-на-один, или имеют четкое чередование с паузами между говорящими. Ограничения голосовой согласованности, которые раскрывает карта модели Google, слабее в этих контекстах.
Вы создаете приложение разработчика, где упрощение цепочки STT → MT → TTS в один API важнее, чем тонкий контроль над каждым этапом.
Вы можете жить без атрибуции говорящего в аудиовыводе и без потоковых текстовых расшифровок.

Когда вы можете предпочесть другой инструмент

Вам нужен потоковый текст наряду с аудио или вместо него. Потоковый текст — это то, что большинство производственных интерфейсов показывают на экране во время живых субтитров, конференц-перевода и сценариев доступности. Текст Gemini 3.5 Live Translate только как дополнение.
Вам нужна атрибуция по говорящим в переведенном выводе. Раскрытие карты модели «может застрять на одном голосе во время быстрых многоговорящих сессий» делает это реальным риском для встреч.
Вы переводите разговоры, где стабильность важнее выразительности. Аудиовывод не может быть исправлен в середине высказывания, поэтому на языках с поздно разрешающимся синтаксисом (китайская полярность в конце предложения, японский глагол в конце предложения) раннее обязательство может инвертировать смысл. Приложение бенчмарка документирует один такой случай.
Вам нужны переведенные телефонные звонки — набор номера PSTN с переводом, работающим на линии. Gemini Live API — это строительный блок для разработчиков, а не провайдер телефонных звонков.

Честное признание. LiveLingo, продукт, публикующий это руководство, подходит под второй столбец по большинству этих измерений: потоковый текст + аудиовывод, атрибуция по говорящим, монотонное закрытое обязательство, так что отображаемые переводы никогда не отзываются, переведенные исходящие телефонные звонки. Аудиовывод LiveLingo, однако, использует стандартный движок синтеза речи хост-платформы (iOS native на устройствах Apple), который звучит менее естественно, чем генерируемый голос Gemini 3.5 Live Translate. Это реальное преимущество, которое Google поставила сегодня. Сравните спецификации бок о бок на livelingo.io/compare/google-translate, или измеренные цифры бенчмарка на livelingo.io/research/benchmark-2026.

8. 8. Часто задаваемые вопросы

Что такое Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate — это потоковая модель перевода речи в речь, выпущенная Google 9 июня 2026 года. Она построена на Gemini 3 Pro, генерирует переведенное аудио, которое сохраняет интонацию, темп и высоту голоса говорящего, и автоматически определяет 70+ языков. Она доступна разработчикам через Gemini Live API и Google AI Studio (публичная превью), потребителям через приложение Google Переводчик на Android и iOS, и избранным клиентам Google Workspace через Google Meet (закрытая превью).

Какие языки поддерживает Gemini 3.5 Live Translate?

Более 70 языков, автоматически определяемых. В Google Meet конкретно это расширяет предыдущее покрытие с 5 языков до 70+ языков и поддерживает более 2000 комбинаций исходный/целевой в рамках одной встречи.

Сколько стоит Gemini 3.5 Live Translate?

Для потребителей приложение Google Переводчик бесплатно. Доступ разработчиков через Gemini Live API и Google AI Studio оценивается по стандартным тарифам API Google — проверьте Google AI Studio для текущих цен. Корпоративный доступ через Google Meet ограничен избранными клиентами Google Workspace в закрытой превью с 9 июня 2026 года.

Как Gemini 3.5 Live Translate обрабатывает нескольких говорящих?

Согласно карте модели Gemini 3.5 Audio, опубликованной Google DeepMind: «Голоса могут быть несогласованными, и голоса могут сдвигаться после длинных пауз, менять пол или застревать на одном голосе во время быстрых многоговорящих сессий». Практически: разговоры один-на-один и дискуссии с чередованием с четкими паузами работают хорошо; быстрые многоговорящие сценарии — документированная слабость. Нет атрибуции по говорящим в переведенном аудиовыводе.

Выводит ли Gemini 3.5 Live Translate текст?

Основной вывод — переведенная речь. Текстовые расшифровки доступны, но только как дополнение к речевому выводу — нет режима потокового текста, и API режима перевода не принимает текстовый ввод.

Какова измеренная задержка Gemini 3.5 Live Translate?

Google описывает систему как остающуюся «на несколько секунд позади говорящего». Независимое измерение LiveLingo Research в день запуска зафиксировало медианную задержку первого аудио 2947 мс (p10–p90: 2859–3104 мс) по 120 тестовым высказываниям — примерно 3-секундная постоянная задержка речи. Источник: livelingo.io/research/benchmark-2026.

Когда была выпущена Gemini 3.5 Live Translate?

Google анонсировала и начала развертывание Gemini 3.5 Live Translate 9 июня 2026 года через Gemini Live API и Google AI Studio (публичная превью разработчиков), приложение Google Переводчик на Android и iOS (глобальное развертывание начиная с этого дня), и Google Meet (закрытая превью для избранных клиентов Workspace).

Какой инструмент продолжает работать, когда язык переключается посреди разговора?

Именно здесь у переводчиков «речь в речь», таких как Gemini 3.5 Live Translate, есть структурное слепое пятно: на фрагменте бенчмарка с переключением с китайского на английский вывод перевода останавливается в тот момент, когда исходная речь переходит на целевой язык, и последние ~28% содержания молча теряются. LiveLingo работает по схеме «речь в текст в речь» с текстовой расшифровкой, которая никогда не переписывается, поэтому смешанная по языкам речь передаётся и остаётся на экране, а не исчезает. Для разговоров, где говорящие смешивают два языка, это разница между тем, чтобы следить за беседой, и потерей трети сказанного. См. бенчмарк.

9. 9. Источники

Google. Плавный, естественный голосовой перевод с Gemini 3.5 Live Translate. Блог Google, 9 июня 2026. blog.google
Google DeepMind. Gemini 3.5 Audio (Live Translate) — Карта модели. deepmind.google
MarkTechPost. Google выпускает Gemini 3.5 Live Translate, потоковую аудиомодель речь-в-речь, покрывающую 70+ языков в Meet, Translate и Live API, 9 июня 2026. marktechpost.com
LiveLingo Research. Бенчмарк голосового перевода в реальном времени 2026 — приложение Gemini 3.5 Live Translate, 9 июня 2026. livelingo.io/research/benchmark-2026