LiveLingoLiveLingoTry free

Живой перевод OpenAI (2026): ChatGPT Voice, gpt-realtime-translate и Whisper+GPT в сравнении

OpenAI предлагает живой речевой перевод через три интерфейса по состоянию на июнь 2026 года: режим живого перевода ChatGPT Voice для платных подписчиков, специализированную модель `gpt-realtime-translate` в Realtime API для разработчиков и DIY-конвейер Whisper + GPT-4o-mini, который остается гибким решением. Это руководство описывает каждый интерфейс, компромиссы между ними, ограничения, раскрытые в собственной документации OpenAI, и независимо измеренные показатели из опубликованного воспроизводимого бенчмарка.

1. 1. Что предлагает OpenAI для живого перевода в 2026 году

Доступны три различных интерфейса по состоянию на июнь 2026 года:

ChatGPT Voice — живой перевод (потребительский). Живой перевод встроен в голосовой режим ChatGPT. Пользователь нажимает иконку Voice в композиторе сообщений приложения ChatGPT, просит ассистента переводить между языками, и модель продолжает переводить на протяжении всего разговора, пока не получит команду остановиться или переключиться. Это требует платной подписки ChatGPT — Plus, Teams, Enterprise или Edu (страница потребительских цен OpenAI; Plus стоит ~$20/мес). По нашим проверкам на 10 июня 2026 года, доступа к живому переводу на бесплатном тарифе нет. Интерфейс разговорный, а не специализированный переводческий UI; нет селектора пары исходный/целевой язык, нет двухколоночной расшифровки исходного и переведенного текста, и нет набора номера.

`gpt-realtime-translate` (специализированная API-модель). 7 мая 2026 года OpenAI выпустила специально созданную потоковую модель перевода речи в речь внутри Realtime API. Согласно анонсу OpenAI, модель была "обучена на тысячах часов аудио профессиональных переводчиков" и настроена "оставаться только в режиме перевода и ждать достаточного контекста перед воспроизведением речи." Она поддерживает 70+ входных языков с переводом на 13 выходных языков и стоит $0.034 за минуту входного аудио (цены OpenAI API). Документированные партнеры запуска, названные в анонсе OpenAI: Deutsche Telekom (многоязычная поддержка клиентов) и Vimeo (перевод обучающих видео о продуктах в реальном времени).

Whisper + GPT-4o-mini (DIY-конвейер). Оригинальный путь для разработчиков остается доступным. Whisper-large обрабатывает речь в текст (99 языков согласно руководству OpenAI по речи в текст; $0.006/мин аудио на странице цен OpenAI API); GPT-4o-mini обрабатывает перевод (цена за токен, тот же источник). Вместе они поддерживают произвольные языковые пары — не ограничение в 13 выходных языков `gpt-realtime-translate` — и дают разработчику полный контроль над разбивкой на фрагменты, промптами, обработкой глоссариев и форматом вывода. Цена — инженерные усилия: API Whisper не сегментирует непрерывную речь на границы высказываний, поэтому разработчик должен обеспечить детекцию голосовой активности (VAD), логику конечных точек, фильтрацию галлюцинаций, потоковый UI и телефонию.

2. 2. ChatGPT Voice — режим живого перевода (потребительский)

ChatGPT Voice с живым переводом работает внутри потребительского приложения ChatGPT на iOS, Android и в веб-версии. Пользователь открывает голосовую сессию и дает ассистенту инструкцию по переводу, например "переводи между английским и японским." Модель затем переводит высказывания каждого говорящего на запрошенный целевой язык непрерывно, через реплики, пока пользователь не скажет ей остановиться, переключить языки или завершить сессию.

Доступ требует платной подписки ChatGPT. Обновленный голосовой режим с живым переводом доступен пользователям ChatGPT Plus (~$20/мес согласно странице потребительских цен OpenAI), Teams, Enterprise и Edu; доступ инициируется через иконку Voice в композиторе сообщений (как документировано на chatgpt.com/features/voice и подтверждено освещением запуска Tom's Guide и 9to5Mac). Функция живого перевода не доступна на бесплатном тарифе по нашим проверкам на 10 июня 2026 года.

Что дает интерфейс, а чего не дает. Пользовательский опыт — это разговорная голосовая сессия, естественная для личного межъязыкового обмена или небольшой очной беседы. Он не включает специализированный переводческий UI с выбором исходного/целевого языка, двухколоночную пару расшифровок исходного и переведенного текста, которую можно читать во время прослушивания, экспорт сессии, заметки встречи или набор исходящих телефонных звонков. Модель внутренне обрабатывает голосовую активность и смену реплик; пользователь не имеет явного контроля над временем конечных точек, глоссарием или стилем промптов.

Базовая модель и поведение. Живой перевод ChatGPT Voice построен на семействе моделей Realtime от OpenAI. Освещение запуска 7 мая 2026 года (Tom's Guide, 9to5Mac, Slator) указывает, что потребительский интерфейс Voice использует ту же инфраструктуру Realtime, которая хостит `gpt-realtime-translate`, с детекцией голосовой активности на уровне потребительского приложения, состоянием разговора и рендерингом UI сверху. Публичная документация моделей OpenAI не описывает отдельную карточку модели для потребительского варианта Voice translate на 10 июня 2026 года.

3. 3. gpt-realtime-translate — специализированная API-модель

`gpt-realtime-translate` — это первая специально созданная модель перевода от OpenAI, выпущенная 7 мая 2026 года внутри Realtime API. Она отличается от DIY-маршрута Whisper + GPT-4o-mini тем, что потоковое преобразование речи в речь происходит в одной модели, а не через два независимо промптируемых API-вызова.

Спецификации. Согласно кулинарной книге разработчика OpenAI: 70+ входных языков с автоопределением, 13 выходных языков. Цена $0.034 за минуту входного аудио. Возвращает переведенное аудио плюс текстовые расшифровки как исходной речи, так и переведенного вывода — интерфейс расшифровки, который потребительский режим ChatGPT Voice не предоставляет. Нет атрибуции говорящих и выбора голоса. Произнесенный вывод нельзя пересмотреть после его воспроизведения.

Обучение и поведение. OpenAI заявляет, что модель была "обучена на тысячах часов аудио профессиональных переводчиков, что помогает ей оставаться только в режиме перевода и ждать достаточного контекста перед воспроизведением речи." В собственной оценке OpenAI модель показала на 12.5% более низкие показатели Word Error Rates, чем любая другая протестированная модель на хинди, тамильском и телугу — документированная сила релиза для индийских языков.

Ограничения режима перевода. Согласно кулинарной книге OpenAI, API-вызов в режиме перевода является ограниченным интерфейсом по сравнению с общим использованием Realtime API. Текстовый ввод не поддерживается в режиме перевода, а использование инструментов и системные инструкции отключены — ввод это аудио, вывод это аудио плюс расшифровки, и модель ведет себя как специализированный переводчик, а не как общий голосовой ассистент.

4. 4. Whisper + GPT-4o-mini — DIY-конвейер

Маршрут Whisper + GPT-4o-mini остается доступным и продолжает быть правильным выбором для разработчиков, которым нужно поведение, которое специализированная модель перевода не предоставляет: произвольные выходные языки за пределами ограничения в 13 языков, детальный контроль промптов и глоссариев, пользовательские стратегии разбивки на фрагменты или интеграция с другими возможностями Realtime API, такими как использование инструментов.

Спецификации. Whisper-large поддерживает 99 входных языков для речи в текст (руководство OpenAI по речи в текст) по цене $0.006 за минуту аудио (страница цен OpenAI). GPT-4o-mini обрабатывает шаг перевода с ценой за токен (также на странице цен OpenAI). Два сервиса — это независимые сетевые вызовы; общая стоимость за минуту зависит от длины расшифровки, но обычно ниже, чем `gpt-realtime-translate` для использования с английским целевым языком, и требует больших инженерных усилий.

Что должен предоставить разработчик. Производственный перевод голоса в реальном времени поверх Whisper + GPT-4o-mini требует следующих компонентов, ни один из которых OpenAI не поставляет:

  • Детекция голосовой активности (VAD). API Whisper предоставляет расшифровку завершенных аудиофрагментов, но не сегментирует непрерывную речь на границы высказываний; разработчик предоставляет отдельный VAD для решения, когда отправлять каждый фрагмент. Без него нет сигнала о том, когда высказывание заканчивается.
  • Логика конечных точек. Решить, ждать ли больше аудио (меньшая задержка, больше пересмотров) или зафиксировать рано (большая задержка, меньше пересмотров). Этот компромисс определяет пользовательский опыт.
  • Фильтрация галлюцинаций. Whisper широко известен галлюцинациями английского текста-заполнителя на коротких клипах — обычные артефакты включают "Thanks for watching!" и "Subscribe!", приписываемые контенту YouTube в его обучающем корпусе; см. обсуждение галлюцинаций на коротких клипах в GitHub openai/whisper. Производственные развертывания требуют их фильтрации.
  • Примитивы потокового UI. Наложение с контролируемой фиксацией, чтобы отображаемый текст не отзывался, накопление частичных фрагментов, поведение прокрутки и отображение исходного против переведенного.
  • Интеграция телефонии для использования телефонных звонков (Twilio, Telnyx или аналогичные), включая двунаправленное аудио-мостирование и соблюдение требований раскрытия записи звонков по юрисдикциям.
  • Мониторинг затрат + обработка ограничений скорости. При устойчивом использовании стоимость за минуту может превысить фиксированную подписку, а ограничения скорости на аккаунт требуют стратегий отката.

5. 5. Как они работают при независимом измерении

Что мы измеряли (и что не измеряли). Приведенные ниже цифры относятся к сырой конечной точке `gpt-realtime-translate` Realtime API, доступной программно через Python SDK, с одинаковыми границами высказываний energy-VAD, применяемыми единообразно ко всем системам API-уровня в бенчмарке LiveLingo. Мы не измеряли потребительское приложение ChatGPT Voice отдельно. ChatGPT Voice построен на той же инфраструктуре Realtime, но потребительский интерфейс добавляет свой собственный клиентский VAD, состояние разговора, рендеринг UI и может применять серверное сглаживание, к которому у нас нет программного доступа. Пользователь ChatGPT Voice может видеть другую воспринимаемую задержку, дрейф лага и поведение переключения кодов, чем сообщают цифры API-уровня. Где этот раздел цитирует конкретное поведение (дрейф, молчание при переключении кодов), рассматривайте их как нижний предел опыта разработчика на конечной точке Realtime API, а не как верхний предел потребителя ChatGPT-Voice. Цифры DIY-конвейера Whisper + GPT-4o-mini аналогично относятся к API-уровню — они отражают то, что испытывает разработчик после сборки наивного базового конвейера, а не настроенной вручную производственной системы.

Воспроизводимость. Каждая цифра в этом разделе воспроизводится из тех же трех 120-секундных аудиоклипов VOA общественного достояния, той же конечной точки Realtime API и той же Python-обвязки, используемой для оригинального четырехсистемного бенчмарка. Аудио (`audio.zip`), сырой JSON по высказываниям (`openai-realtime-results.json`) и методология опубликованы на livelingo.io/research/benchmark-2026.

gpt-realtime-translate — измеренное поведение

Самое быстрое первое аудио из всех протестированных систем. Медиана 711 мс от начала речи до первого переведенного аудио по всем 120 оцененным сессиям (p10–p90: 485–1,012 мс). Для контекста, Gemini 3.5 Live Translate измерил ~2.9 с по той же метрике — `gpt-realtime-translate` примерно в четыре раза быстрее до первого вывода. Скорость — это настоящая сила этой модели.

Композитная точность понимания: 4.53 / 5. Оценено двумя независимыми судьями-LLM переднего края (GPT-4o, Gemini 2.5 Flash) с использованием той же рубрики и промптов судей, что и в оригинальном четырехсистемном бенчмарке, по 120 высказываниям и четырем языковым парам (en→es, en→zh-CN, en→ja, en→de). Это был самый низкий балл из шести измеренных систем. Лицом к лицу против LiveLingo на уровне ячеек: 4 победы, 80 ничьих, 36 поражений. Повторяющиеся классы ошибок: посторонние фразы, добавленные в начале высказываний, инверсии смысла (например, "I was stressed about work" передано как желание быть в стрессе), и собственные имена, замененные нарицательными.

Сравнение шести систем в бенчмарке LiveLingo 2026 (120 высказываний, четыре языковые пары, композит 2 судей). Сырые данные: livelingo.io/research/benchmark-2026.

СистемаПонимание (0–5)Задержка первого аудио / TTFИнтерфейс вывода
LiveLingo4.961,518 мс (зафиксированная расшифровка)Потоковый текст + аудио
Gemini 3.5 Live Translate4.93~3,100 мс (TTF)Аудио (текстовый сайдкар)
Google Cloud STT v2 + Translate v34.77~26,736 мс (финальная расшифровка)Расшифровка
Azure Speech Translation4.65~4,755 мс (финальная расшифровка)Расшифровка
Whisper + GPT-4o-mini (DIY)4.632,720 мс (финальная расшифровка)Расшифровка
**OpenAI gpt-realtime-translate****4.53****~3,800 мс (TTF)****Аудио + расшифровка**

Дрейф лага на непрерывной речи. Скорость до первого вывода отличная, но на продолжительном аудио переведенный голос прогрессивно отстает от говорящего, поскольку накапливается непереведенный бэклог. Измеряя от конца каждого исходного высказывания до прибытия переведенной речи для этого высказывания: медиана 3.8 с, дрейфующая до 20.3 с позади на плотном pt→en клипе VOA. Это компромисс, который создает архитектура аудио-в-аудио — речевой вывод естественно ограничен скоростью говорения синтезированного голоса, поэтому модель не может "догнать" быстрее человеческого темпа.

Сбой речи с переключением кодов. Согласно документации разработчика OpenAI, модель может пропускать речь, которая уже на выходном языке. На zh→en клипе VOA в бенчмарке LiveLingo это проявилось как молчание на 86-секундной отметке, когда источник переключился на английскую речь — модель замолчала и не передала английский контент в переведенный вывод. Gemini 3.5 Live Translate демонстрирует тот же пропуск на том же клипе; это классовая проблема для специализированных моделей перевода аудио-в-аудио (см. выноску ниже). Конвейеры, которые предоставляют потоковую текстовую расшифровку, могут передать контент с переключением кодов в отображаемую расшифровку вместо его пропуска.

Интерфейсы вывода. Переведенное аудио плюс текстовые расшифровки как источника, так и вывода — ближе к интерфейсу продукта, ориентированного на расшифровку, чем Gemini 3.5 Live Translate с только аудио API. Нет атрибуции говорящих. Нет выбора голоса. Произнесенный вывод нельзя пересмотреть после его воспроизведения.

Аудио-в-аудио — это класс с общими ограничениями. Поведение в этом разделе не уникально для `gpt-realtime-translate`. Google Gemini 3.5 Live Translate и любая другая текущая модель перевода речи в речь аудио-в-аудио наследует тот же класс компромиссов: (1) дрейф лага темпа вывода на непрерывной речи, потому что переведенное аудио ограничено скоростью говорения и не может догнать быстрее человеческого темпа; (2) молчание при переключении кодов, потому что модель настроена пропускать речь, уже на выходном языке; (3) нет встроенной атрибуции говорящих в синтезированном аудио; (4) необратимые фиксации в середине высказывания, потому что произнесенное аудио нельзя отозвать так, как можно отозвать отображаемый текст. Системы, которые предоставляют потоковую текстовую расшифровку — включая DIY-маршрут OpenAI Whisper + GPT-4o-mini и продукты перевода с потоковой расшифровкой, такие как LiveLingo — избегают (2), (3) и (4) ценой либо накладных расходов задержки двух моделей, либо другой модальности вывода. Рассматривайте это как понимание категории, а не критику одной модели.

Whisper + GPT-4o-mini DIY-конвейер — измеренное поведение

На тех же трех 120-секундных клипах VOA наивный базовый конвейер Whisper-large + GPT-4o-mini измерил медианную задержку финальной расшифровки 2,720 мс (95% CI 1,880–3,396, n=28) и выдал ≈22 нормализованных стирания на 120-секундный клип (пересмотры токенов по частичным фрагментам). Композитная точность понимания была 4.63 / 5 по тем же четырем языковым парам.

Примечательно: DIY-конвейер набрал более высокое понимание, чем специализированная модель `gpt-realtime-translate` (4.63 против 4.53). Специализированная модель быстрее до первого вывода и проще в интеграции, но на этом бенчмарке старый двухмодельный конвейер читает исходный смысл немного точнее. Различия находятся в пределах ~0.10 по 5-балльной шкале и отражают разные приоритеты дизайна — скорость и операционную простоту для специализированной модели, точность расшифровки и контроль промптов для конвейера.

6. 6. Что раскрывает собственная документация OpenAI

Утверждения, взятые непосредственно из анонса OpenAI от 7 мая 2026 года и документации разработчика:

  • Обучающий корпус. "Обучена на тысячах часов аудио профессиональных переводчиков, что помогает ей оставаться только в режиме перевода и ждать достаточного контекста перед воспроизведением речи." (Источник: анонс OpenAI.)
  • Покрытие языков. 70+ входных языков в 13 выходных языков. (Источник: кулинарная книга OpenAI.)
  • Сила индийских языков. "На 12.5% более низкие показатели Word Error Rates, чем любая другая протестированная модель" на хинди, тамильском и телугу в собственной оценке OpenAI. (Источник: анонс OpenAI.)
  • Поведение при переключении кодов. Документация OpenAI утверждает, что модель может пропускать речь, уже на выходном языке — дизайнерское решение, которое производит молчание на аудио с переключением кодов.
  • Ограничения режима. В режиме перевода текстовый ввод не поддерживается, а использование инструментов плюс системные инструкции отключены. Вызов в режиме перевода — это ограниченный интерфейс по сравнению с общим Realtime API.
  • Формат вывода (разработчик). Аудио отправляется и получается в сыром PCM с фрагментированной потоковой передачей. Обратитесь к руководству Realtime API для точного формата и рекомендаций по размеру фрагментов.
  • Цены. $0.034 за минуту входного аудио для `gpt-realtime-translate`. $0.006 за минуту аудио для Whisper. GPT-4o-mini за токен. ChatGPT Plus стоит примерно $20/мес и является минимальным платным тарифом для доступа к живому переводу ChatGPT Voice. (Цены OpenAI API и потребительские цены ChatGPT.)
  • Документированные пользователи запуска. Deutsche Telekom (многоязычная поддержка клиентов) и Vimeo (перевод обучающих видео о продуктах в реальном времени). (Источник: анонс OpenAI.)

7. 7. Когда выбирать какой интерфейс — и когда подходит другой инструмент

Выбирайте живой перевод ChatGPT Voice, если

  • Вы уже платите за ChatGPT Plus (или Teams, Enterprise, Edu) и не хотите добавлять еще одну подписку.
  • Ваш случай использования — это личный разговор или небольшая очная беседа, а не многосторонняя встреча, которая нуждается в отображаемых расшифровках.
  • Вы принимаете интерфейс разговорного режима, а не специализированный переводческий UI с выбором исходного/целевого языка и сохраненной расшифровкой.
  • Вам комфортно, что модель внутренне обрабатывает голосовую активность и смену реплик, без явного пользовательского контроля.

Выбирайте gpt-realtime-translate (Realtime API), если

  • Вы создаете приложение для разработчиков, где время до первого переведенного аудио важнее, чем запас понимания.
  • Ваш список выходных языков помещается в 13 языков.
  • Вы обслуживаете аудитории индийских языков (хинди, тамильский, телугу), где собственная оценка OpenAI сообщает о снижении WER на 12.5% по сравнению с альтернативами.
  • Вы можете построить потребительский слой (UI, телефония, обработка ошибок, откаты переключения кодов) поверх API OpenAI.
  • Вы принимаете компромисс скорость-против-понимания (4.53/5 понимания против 4.63 для DIY-конвейера на том же бенчмарке) в обмен на один API-вызов вместо двух.

Выбирайте Whisper + GPT-4o-mini DIY, если

  • Вам нужны произвольные выходные языки за пределами ограничения в 13 языков.
  • Вам нужен полный контроль промптов и глоссариев для специализированной лексики или стилевых ограничений.
  • У вас есть инженерные мощности для VAD, детекции конечных точек, фильтрации галлюцинаций, потокового UI и телефонии.
  • Вы хотите более низкую стоимость за минуту аудио ($0.006 Whisper) и можете принять цену за токен GPT-4o-mini.
  • Вы хотите интегрировать перевод с более широкой поверхностью возможностей Realtime API (использование инструментов, системные инструкции), которую специализированный режим перевода не предоставляет.

Где другой инструмент может подойти лучше

Три интерфейса OpenAI покрывают большинство случаев использования живого перевода, но каждый живет внутри определенной формы: ChatGPT Voice — это чатбот с переводом, `gpt-realtime-translate` — это API для разработчиков, а Whisper + GPT-4o-mini — это набор строительных блоков. Специализированный интерфейс переводческого приложения — с потоковым текстом + аудио выводом, который можно читать во время прослушивания, атрибуцией по говорящим, отображаемыми расшифровками с контролируемой фиксацией, которые никогда не отзываются, переведенными исходящими телефонными звонками и бесплатным тарифом вне подписки — это другая категория продуктов. LiveLingo (публикующий это руководство) находится там. Честный компромисс: аудио вывод LiveLingo работает через стандартный движок преобразования текста в речь хост-платформы, поэтому произнесенный голос менее выразительный, чем у `gpt-realtime-translate`; разговорный интерфейс ChatGPT Voice может ощущаться более естественным, чем специализированный переводческий UI для случайного общения туда-сюда. Спецификации бок о бок: /compare/chatgpt-translation. Цифры бенчмарка: /research/benchmark-2026.

8. 8. Часто задаваемые вопросы

Какой живой перевод предлагает OpenAI в 2026 году?

OpenAI предоставляет живой перевод через три интерфейса по состоянию на середину 2026 года. ChatGPT Voice включает режим живого перевода для платных подписчиков (Plus, Teams, Enterprise, Edu). `gpt-realtime-translate` — это специализированная потоковая модель перевода речи в речь в Realtime API, выпущенная 7 мая 2026 года, по цене $0.034 за минуту входного аудио с 70+ входными языками и 13 выходными языками. DIY-конвейер Whisper-large (речь в текст) и GPT-4o-mini (перевод) остается доступным для разработчиков, которые хотят произвольные языковые пары и полный контроль стека.

Как работает живой перевод ChatGPT Voice?

Нажмите иконку Voice в композиторе сообщений приложения ChatGPT, затем попросите ассистента переводить — например, "переводи между английским и японским." Модель продолжает переводить через реплики, пока не получит команду остановиться или переключить языки. Доступно платным подписчикам ChatGPT (Plus ~$20/мес, Teams, Enterprise или Edu). Это разговорный голосовой интерфейс, а не специализированный переводческий UI с селекторами исходного/целевого языка, парами расшифровок исходного и переведенного текста или набором звонков.

Что такое gpt-realtime-translate?

Специализированная потоковая модель перевода речи в речь OpenAI в Realtime API, выпущенная 7 мая 2026 года. Обучена на тысячах часов аудио профессиональных переводчиков. 70+ входных языков → 13 выходных языков. Цена $0.034 за минуту входного аудио. Возвращает переведенное аудио плюс текстовые расшифровки как источника, так и вывода. Документированные корпоративные пользователи при запуске включают Deutsche Telekom и Vimeo.

Можно ли все еще создать живой переводчик с Whisper и GPT-4o-mini?

Да. DIY-конвейер (Whisper-large $0.006/мин аудио, 99 исходных языков; GPT-4o-mini за токен) остается самым гибким маршрутом OpenAI — он поддерживает произвольные языковые пары и дает полный контроль над разбивкой на фрагменты, промптами и форматом вывода. Компромисс — инженерная стоимость: API Whisper не сегментирует непрерывную речь на границы высказываний, поэтому разработчик должен построить VAD, логику конечных точек, фильтрацию галлюцинаций, потоковый UI и телефонию.

Какие измеренные задержка и понимание у gpt-realtime-translate?

В дополнении к исследовательскому бенчмарку LiveLingo (10 июня 2026 года) `gpt-realtime-translate` имел самую быструю задержку первого аудио из всех протестированных систем — медиана 711 мс от начала речи до первого переведенного аудио. Композитная точность понимания была 4.53 / 5, самая низкая из шести измеренных систем. На непрерывной речи переведенный голос отставал от говорящего — медиана 3.8 с, дрейфуя до 20.3 с на плотном аудио. Повторяющиеся ошибки: посторонние вставки, инверсии смысла, замены собственных имен. Источник: livelingo.io/research/benchmark-2026.

Отражают ли эти цифры пользовательский опыт ChatGPT Voice?

Нет. Измеренные цифры относятся к сырому API-вызову `gpt-realtime-translate` Realtime. ChatGPT Voice построен на той же инфраструктуре Realtime, но потребительское приложение добавляет свой собственный клиентский VAD, состояние разговора, рендеринг UI и может применять серверное сглаживание, не измеренное отдельно. Пользователь ChatGPT Voice может видеть другую воспринимаемую задержку, дрейф лага и поведение переключения кодов, чем сообщают цифры API-уровня. Рассматривайте опубликованный бенчмарк как нижний предел опыта разработчика на конечной точке Realtime API, а не как верхний предел пользователя ChatGPT-Voice.

Как OpenAI обрабатывает переключение кодов?

Согласно документации разработчика OpenAI, `gpt-realtime-translate` может пропускать речь, уже на выходном языке. В бенчмарке LiveLingo это проявилось как молчание на zh→en клипе VOA на 86-секундной отметке, когда источник переключился на английский. Gemini 3.5 Live Translate демонстрирует тот же пропуск на том же клипе. Системы потоковой текстовой расшифровки, которые передают речь на целевом языке в отображаемую расшифровку, не имеют этого пропуска.

Когда следует выбирать какой интерфейс OpenAI?

Живой перевод ChatGPT Voice, если вы уже платите за ChatGPT Plus или выше и принимаете разговорный интерфейс. `gpt-realtime-translate`, если вы создаете приложение для разработчиков, где скорость до первого аудио важнее стабильности отображаемого текста, ваш список выходных языков помещается в 13, и вы можете построить потребительский интерфейс сверху. Whisper + GPT-4o-mini DIY, если вам нужны произвольные выходные языки, полный контроль промптов и глоссариев, более низкая стоимость за минуту и инженерные мощности для построения VAD, детекции конечных точек, фильтрации галлюцинаций, потокового UI и телефонии.

9. 9. Источники

  • OpenAI. Advancing voice intelligence with new models in the API. Блог OpenAI, 7 мая 2026 года. openai.com
  • OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. Кулинарная книга OpenAI. developers.openai.com
  • OpenAI Developers. Realtime and audio (руководство Realtime API). developers.openai.com
  • OpenAI. ChatGPT Voice mode (страница потребительских функций). chatgpt.com
  • OpenAI. API pricing (тарифы по моделям). openai.com/api/pricing
  • OpenAI. ChatGPT pricing (потребительские тарифы). openai.com/chatgpt/pricing
  • OpenAI. Speech-to-text guide (документация Whisper). platform.openai.com
  • Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time, 7 мая 2026 года. tomsguide.com
  • 9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak, 7 мая 2026 года. 9to5mac.com
  • Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT. slator.com
  • openai/whisper. GitHub Discussions — галлюцинации на коротких клипах. github.com
  • LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — дополнение OpenAI gpt-realtime-translate, 10 июня 2026 года. livelingo.io/research/benchmark-2026
  • LiveLingo. LiveLingo против ChatGPT: сравнение голосового перевода в реальном времени (2026). livelingo.io/compare/chatgpt-translation

Цены, доступность, пользователи запуска и детали доступа потребительского уровня проверены по первоисточникам выше на 10 июня 2026 года. OpenAI может изменить тарифы, цены, покрытие языков и поведение моделей; обращайтесь к связанным источникам для текущего состояния перед тем, как полагаться на любую конкретную цифру.

Готовы преодолеть языковой барьер?

Попробуйте LiveLingo бесплатно — 5 минут голосового перевода в реальном времени каждый день, без привязки карты. Переходите на Pro для переводимых звонков, AI-заметок встреч и 300 минут в месяц.

Попробовать LiveLingo бесплатно
Живой перевод OpenAI (2026): ChatGPT Voice, gpt-realtime-translate | LiveLingo