LiveLingoLiveLingoTry free

Traducción en Vivo de OpenAI (2026): ChatGPT Voice, gpt-realtime-translate y Whisper+GPT Comparados

OpenAI ofrece traducción de voz en tiempo real a través de tres interfaces desde junio de 2026: el modo de traducción en vivo de ChatGPT Voice para suscriptores de pago, el modelo dedicado `gpt-realtime-translate` en la API Realtime para desarrolladores, y el pipeline DIY de Whisper + GPT-4o-mini que sigue siendo la opción más flexible. Esta guía describe cada interfaz, las ventajas y desventajas entre ellas, lo que la propia documentación de OpenAI revela como limitaciones, y los números medidos independientemente de un benchmark reproducible publicado.

1. 1. Lo que OpenAI Ofrece para Traducción en Vivo en 2026

Tres interfaces distintas están disponibles desde junio de 2026:

ChatGPT Voice — traducción en vivo (consumidor). La traducción en vivo está integrada en el modo Voice de ChatGPT. Un usuario toca el ícono de Voice en el compositor de mensajes de la app ChatGPT, le pide al asistente que traduzca entre idiomas, y el modelo continúa traduciendo durante toda la conversación hasta que se le dice que pare o cambie. Esto requiere una suscripción paga de ChatGPT — Plus, Teams, Enterprise o Edu (página de precios para consumidores de OpenAI; Plus cuesta ~$20/mes). No hay acceso gratuito a traducción en vivo para consumidores en nuestras verificaciones del 10 de junio de 2026. La interfaz es conversacional en lugar de una UI dedicada de traductor; no hay selector de par de idiomas origen/destino, no hay transcripción de dos columnas origen-y-traducido, y no hay marcación de llamadas.

`gpt-realtime-translate` (modelo API dedicado). El 7 de mayo de 2026, OpenAI lanzó un modelo de traducción de voz a voz en streaming diseñado específicamente dentro de la API Realtime. Según el anuncio de OpenAI, el modelo fue "entrenado con miles de horas de audio de intérpretes profesionales" y está configurado para "mantenerse solo en traducción y esperar suficiente contexto antes de producir voz." Soporta más de 70 idiomas de entrada traducidos a 13 idiomas de salida y tiene un precio de $0.034 por minuto de audio de entrada (precios de la API de OpenAI). Socios de lanzamiento documentados nombrados en el anuncio de OpenAI: Deutsche Telekom (soporte al cliente multilingüe) y Vimeo (traducción en tiempo real de videos educativos de productos).

Whisper + GPT-4o-mini (pipeline DIY). La ruta original para desarrolladores sigue disponible. Whisper-large maneja voz a texto (99 idiomas según la guía de voz a texto de OpenAI; $0.006/min de audio en la página de precios de la API de OpenAI); GPT-4o-mini maneja la traducción (precios por token, misma fuente). Combinados, soportan pares de idiomas arbitrarios — no el límite de 13 salidas de `gpt-realtime-translate` — y dan al desarrollador control total sobre segmentación, prompts, manejo de glosarios y formato de salida. El costo es ingeniería: la API de Whisper no segmenta el habla continua en límites de enunciados, por lo que el desarrollador debe proporcionar detección de actividad de voz (VAD), lógica de puntos finales, filtrado de alucinaciones, UI de streaming y telefonía.

2. 2. ChatGPT Voice — Modo de Traducción en Vivo (Consumidor)

ChatGPT Voice con traducción en vivo funciona dentro de la app de consumidor ChatGPT en iOS, Android y la web. El usuario abre una sesión de Voice y le da al asistente una instrucción de traducción como "traduce entre inglés y japonés." El modelo entonces traduce los enunciados de cada hablante al idioma objetivo solicitado continuamente, a través de turnos, hasta que el usuario le dice que pare, cambie de idiomas o termine la sesión.

El acceso requiere una suscripción paga de ChatGPT. El modo Voice mejorado con traducción en vivo está disponible para usuarios de ChatGPT Plus (~$20/mes según la página de precios para consumidores de OpenAI), Teams, Enterprise y Edu; el acceso se inicia a través del ícono de Voice en el compositor de mensajes (como se documenta en chatgpt.com/features/voice y confirmado por la cobertura de lanzamiento de Tom's Guide y 9to5Mac). La función de traducción en vivo no aparece en el nivel gratuito en nuestras verificaciones del 10 de junio de 2026.

Lo que te da la interfaz, y lo que no. La experiencia del usuario es una sesión conversacional de Voice — natural para un intercambio uno-a-uno entre idiomas o una conversación pequeña en persona. No incluye una UI dedicada de traductor con selector de idioma origen/destino, un par de transcripciones de dos columnas origen-y-traducido que puedas leer mientras escuchas, exportación de sesión, resumen de reunión, o marcación de llamadas salientes. El modelo maneja la actividad de voz y el intercambio de turnos internamente; el usuario no tiene control explícito sobre el tiempo de puntos finales, glosario o estilo de prompts.

Modelo subyacente y comportamiento. La traducción en vivo de ChatGPT Voice está construida sobre la familia de modelos Realtime de OpenAI. La cobertura de lanzamiento del 7 de mayo de 2026 (Tom's Guide, 9to5Mac, Slator) indica que la interfaz Voice para consumidores usa la misma infraestructura Realtime que aloja `gpt-realtime-translate`, con detección de actividad de voz a nivel de app de consumidor, estado de conversación y renderizado de UI encima. La documentación pública de modelos de OpenAI no describe una tarjeta de modelo separada para la variante de traducción Voice para consumidores al 10 de junio de 2026.

3. 3. gpt-realtime-translate — El Modelo API Dedicado

`gpt-realtime-translate` es el primer modelo de traducción diseñado específicamente de OpenAI, lanzado el 7 de mayo de 2026 dentro de la API Realtime. Es distinto de la ruta DIY Whisper + GPT-4o-mini en que la transformación de voz a voz en streaming ocurre en un solo modelo en lugar de a través de dos llamadas API con prompts independientes.

Especificaciones. Según el cookbook para desarrolladores de OpenAI: más de 70 idiomas de entrada detectados automáticamente, 13 idiomas de salida. Precio $0.034 por minuto de audio de entrada. Devuelve audio traducido más transcripciones de texto tanto del habla origen como de la salida traducida — una interfaz de transcripción que el modo ChatGPT Voice para consumidores no expone. Sin atribución de hablante y sin selección de voz. La salida hablada no puede ser revisada después de ser emitida.

Entrenamiento y comportamiento. OpenAI declara que el modelo fue "entrenado con miles de horas de audio de intérpretes profesionales, lo que le ayuda a mantenerse solo en traducción y esperar suficiente contexto antes de producir voz." En la propia evaluación de OpenAI, el modelo entregó 12.5% menos Tasas de Error de Palabras que cualquier otro modelo probado en hindi, tamil y telugu — la fortaleza documentada en idiomas índicos del lanzamiento.

Restricciones del modo traducción. Según el cookbook de OpenAI, la llamada API del modo traducción es una interfaz restringida comparada con el uso general de la API Realtime. La entrada de texto no está soportada en modo traducción, y el uso de herramientas e instrucciones del sistema están deshabilitados — la entrada es audio, la salida es audio más transcripciones, y el modelo se comporta como un intérprete dedicado en lugar de un asistente de voz general.

4. 4. Whisper + GPT-4o-mini — El Pipeline DIY

La ruta Whisper + GPT-4o-mini sigue disponible y continúa siendo la elección correcta para desarrolladores que necesitan comportamientos que el modelo de traducción dedicado no proporciona: idiomas de salida arbitrarios fuera del límite de 13 idiomas, control granular de prompts y glosarios, estrategias de segmentación personalizadas, o integración con otras capacidades de la API Realtime como uso de herramientas.

Especificaciones. Whisper-large soporta 99 idiomas de entrada para voz a texto (guía de voz a texto de OpenAI) a $0.006 por minuto de audio (página de precios de OpenAI). GPT-4o-mini maneja el paso de traducción con precios por token (también en la página de precios de OpenAI). Los dos servicios son llamadas de red independientes; el costo total por minuto depende de la longitud de la transcripción pero típicamente es menor que `gpt-realtime-translate` para uso con objetivo inglés, y mayor esfuerzo de ingeniería.

Lo que el desarrollador debe proporcionar. La traducción de voz en tiempo real de producción sobre Whisper + GPT-4o-mini requiere los siguientes componentes, ninguno de los cuales OpenAI proporciona:

  • Detección de actividad de voz (VAD). La API de Whisper proporciona transcripción en fragmentos de audio completados pero no segmenta el habla continua en límites de enunciados; el desarrollador proporciona un VAD separado para decidir cuándo enviar cada fragmento. Sin esto, no hay señal de cuándo termina un enunciado.
  • Lógica de puntos finales. Decidir si esperar más audio (menor latencia, más revisiones) o comprometerse temprano (mayor latencia, menos revisiones). El balance define la experiencia del usuario.
  • Filtrado de alucinaciones. Se reporta ampliamente que Whisper alucina texto de relleno en inglés en clips cortos — artefactos comunes incluyen "¡Gracias por ver!" y "¡Suscríbete!", atribuidos al contenido de YouTube en su corpus de entrenamiento; ver la discusión de GitHub de openai/whisper sobre alucinaciones en clips cortos. Los despliegues de producción requieren filtrar estos.
  • Primitivas de UI de streaming. Una superposición de compromiso controlado para que el texto mostrado no se retraiga, acumulación de fragmentos parciales, comportamiento de desplazamiento y la visualización origen-vs-traducido.
  • Integración de telefonía para uso de llamadas telefónicas (Twilio, Telnyx o similar), incluyendo puente de audio bidireccional y cumplimiento de divulgación de grabación de llamadas por jurisdicción.
  • Monitoreo de costos + manejo de límites de tasa. En uso sostenido, el costo por minuto puede exceder una suscripción fija, y los límites de tasa por cuenta requieren estrategias de retroceso.

5. 5. Cómo Se Desempeñan en Medición Independiente

Lo que medimos (y lo que no). Los números a continuación son para el endpoint API Realtime de `gpt-realtime-translate` crudo, accedido programáticamente a través del SDK de Python, con los mismos límites de enunciado energy-VAD aplicados uniformemente a cada sistema de nivel API en el benchmark de LiveLingo. No medimos la app de consumidor ChatGPT Voice por separado. ChatGPT Voice está construido sobre la misma infraestructura Realtime pero la interfaz de consumidor añade su propio VAD del lado del cliente, estado de conversación, renderizado de UI, y puede aplicar suavizado del lado del servidor al que no tenemos acceso programático. Un usuario de ChatGPT Voice puede ver latencia percibida diferente, deriva de retraso y comportamiento de cambio de código que los números de nivel API reportan. Los números del pipeline DIY Whisper + GPT-4o-mini son similarmente de nivel API — reflejan lo que un desarrollador experimenta después de ensamblar un pipeline base ingenuo, no un sistema de producción ajustado a mano.

Reproducibilidad. Cada número en esta sección se reproduce de los mismos tres clips de audio de dominio público VOA de 120 segundos, el mismo endpoint API Realtime, y el mismo harness de Python usado para el benchmark original de cuatro sistemas. El audio (`audio.zip`), JSON crudo por enunciado (`openai-realtime-results.json`), y metodología están publicados en livelingo.io/research/benchmark-2026.

gpt-realtime-translate — comportamiento medido

Primer audio más rápido de cualquier sistema probado. Mediana de 711 ms desde el inicio del habla hasta el primer audio traducido a través de todas las 120 sesiones evaluadas (p10–p90: 485–1,012 ms). Para contexto, Gemini 3.5 Live Translate midió ~2.9 s en la misma métrica — `gpt-realtime-translate` es aproximadamente cuatro veces más rápido al primer resultado. La velocidad es la fortaleza genuina de este modelo.

Compuesto de fidelidad de comprensión: 4.53 / 5. Puntuado por dos jueces LLM frontera independientes (GPT-4o, Gemini 2.5 Flash) usando la misma rúbrica y prompts de juez que el benchmark original de cuatro sistemas, a través de 120 enunciados y cuatro pares de idiomas (en→es, en→zh-CN, en→ja, en→de). Esta fue la puntuación más baja de los seis sistemas medidos. Cara a cara contra LiveLingo a nivel de celda: 4 victorias, 80 empates, 36 derrotas. Clases de error recurrentes: frases extrañas antepuestas al inicio de enunciados, inversiones de significado (ej. "Estaba estresado por el trabajo" renderizado como un deseo de estar estresado), y nombres propios reemplazados con sustantivos comunes.

Comparación de seis sistemas en el benchmark LiveLingo 2026 (120 enunciados, cuatro pares de idiomas, compuesto de 2 jueces). Datos crudos: livelingo.io/research/benchmark-2026.

SistemaComprensión (0–5)Latencia primer-audio / TTFSuperficie de salida
LiveLingo4.961,518 ms (transcripción comprometida)Texto + audio en streaming
Gemini 3.5 Live Translate4.93~3,100 ms (TTF)Audio (texto adjunto)
Google Cloud STT v2 + Translate v34.77~26,736 ms (Transcripción Final)Transcripción
Azure Speech Translation4.65~4,755 ms (Transcripción Final)Transcripción
Whisper + GPT-4o-mini (DIY)4.632,720 ms (Transcripción Final)Transcripción
**OpenAI gpt-realtime-translate****4.53****~3,800 ms (TTF)****Audio + transcripción**

Deriva de retraso en habla continua. La velocidad al primer resultado es excelente, pero en audio extendido la voz traducida se queda progresivamente atrás del hablante mientras se acumula trabajo pendiente sin traducir. Midiendo desde cada final de enunciado origen hasta la llegada del habla traducida para ese enunciado: mediana 3.8 s, derivando hasta 20.3 s atrás en el clip VOA denso pt→en. Este es el balance que crea la arquitectura audio-a-audio — la salida de voz está naturalmente limitada por la tasa de habla de la voz sintetizada, por lo que el modelo no puede "ponerse al día" más rápido que el ritmo humano.

Falla de habla con cambio de código. Según la documentación para desarrolladores de OpenAI, el modelo puede omitir habla que ya está en el idioma de salida. En el clip VOA zh→en en el benchmark de LiveLingo, esto se manifestó como silencio en la marca de 86 segundos, cuando la fuente cambió a habla en inglés — el modelo se quedó en silencio y no pasó el contenido en inglés a la salida traducida. Gemini 3.5 Live Translate exhibe la misma brecha en el mismo clip; este es un problema de clase para modelos de traducción dedicados audio-a-audio (ver llamada a continuación). Los pipelines que muestran una transcripción de texto en streaming pueden pasar contenido con cambio de código a la transcripción mostrada en lugar de descartarlo.

Superficies de salida. Audio traducido más transcripciones de texto tanto de origen como de salida — más cerca de una superficie de producto centrada en transcripción que la API solo-audio de Gemini 3.5 Live Translate. Sin atribución de hablante. Sin selección de voz. La salida hablada no puede ser revisada después de ser emitida.

Audio-a-audio es una clase con limitaciones compartidas. Los comportamientos en esta sección no son únicos de `gpt-realtime-translate`. Gemini 3.5 Live Translate de Google, y cualquier otro modelo actual de traducción audio-a-audio de voz a voz, hereda el mismo tipo de balances: (1) deriva de retraso de ritmo de salida en habla continua, porque el audio traducido está limitado por la tasa de habla y no puede ponerse al día más rápido que el ritmo humano; (2) silencio de cambio de código, porque el modelo está configurado para omitir habla ya en el idioma de salida; (3) sin atribución de hablante en línea en el audio sintetizado; (4) compromisos irreversibles a mitad de enunciado, porque el audio hablado no puede ser retraído como el texto mostrado puede serlo. Los sistemas que muestran una transcripción de texto en streaming — incluyendo la ruta DIY Whisper + GPT-4o-mini de OpenAI y productos de traducción de transcripción en streaming como LiveLingo — evitan (2), (3), y (4) al costo de sobrecarga de latencia de dos modelos o una modalidad de salida diferente. Trata esto como una perspectiva de categoría, no una crítica de un modelo.

Pipeline DIY Whisper + GPT-4o-mini — comportamiento medido

En los mismos tres clips VOA de 120 segundos, un pipeline base ingenuo Whisper-large + GPT-4o-mini midió una Latencia de Transcripción Final mediana de 2,720 ms (95% CI 1,880–3,396, n=28), y emitió ≈22 Borrados Normalizados por clip de 120 segundos (revisiones de tokens a través de fragmentos parciales). El compuesto de fidelidad de comprensión fue 4.63 / 5 a través de los mismos cuatro pares de idiomas.

Notablemente: el pipeline DIY puntuó mayor comprensión que el modelo dedicado `gpt-realtime-translate` (4.63 vs 4.53). El modelo dedicado es más rápido al primer resultado y más fácil de integrar, pero en este benchmark el pipeline de dos modelos más antiguo lee el significado origen ligeramente más precisamente. Las diferencias están dentro de ~0.10 en una escala de 5 puntos y reflejan diferentes prioridades de diseño — velocidad y simplicidad operacional para el modelo dedicado, precisión de transcripción y control de prompts para el pipeline.

6. 6. Lo que Revela la Propia Documentación de OpenAI

Declaraciones extraídas directamente del anuncio del 7 de mayo de 2026 de OpenAI y documentación para desarrolladores:

  • Corpus de entrenamiento. "Entrenado con miles de horas de audio de intérpretes profesionales, lo que le ayuda a mantenerse solo en traducción y esperar suficiente contexto antes de producir voz." (Fuente: anuncio de OpenAI.)
  • Cobertura de idiomas. Más de 70 idiomas de entrada a 13 idiomas de salida. (Fuente: Cookbook de OpenAI.)
  • Fortaleza en idiomas índicos. "12.5% menos Tasas de Error de Palabras que cualquier otro modelo probado" en hindi, tamil y telugu en la propia evaluación de OpenAI. (Fuente: anuncio de OpenAI.)
  • Comportamiento de cambio de código. La documentación de OpenAI declara que el modelo puede omitir habla ya en el idioma de salida — una elección de diseño que produce silencio en audio con cambio de código.
  • Restricciones de modo. En modo traducción, la entrada de texto no está soportada y el uso de herramientas más instrucciones del sistema están deshabilitados. La llamada del modo traducción es una superficie restringida comparada con la API Realtime general.
  • Formato de salida (desarrollador). El audio se envía y recibe en PCM crudo con streaming fragmentado. Consulta la guía de la API Realtime para el formato exacto y orientación de tamaño de fragmento.
  • Precios. $0.034 por minuto de audio de entrada para `gpt-realtime-translate`. $0.006 por minuto de audio para Whisper. GPT-4o-mini por token. ChatGPT Plus es aproximadamente $20/mes y es el nivel pago mínimo para acceso a traducción en vivo de ChatGPT Voice. (Precios de la API de OpenAI y precios de consumidor ChatGPT.)
  • Usuarios de lanzamiento documentados. Deutsche Telekom (soporte al cliente multilingüe) y Vimeo (traducción en tiempo real de videos educativos de productos). (Fuente: anuncio de OpenAI.)

7. 7. Cuándo Elegir Qué Superficie — y Cuándo Otra Herramienta Encaja

Elige ChatGPT Voice traducción en vivo si

  • Ya pagas por ChatGPT Plus (o Teams, Enterprise, Edu) y no quieres añadir otra suscripción.
  • Tu caso de uso es una conversación uno-a-uno o pequeña en persona en lugar de una reunión multi-participante que necesita transcripciones mostradas.
  • Aceptas una interfaz de modo conversacional en lugar de una UI dedicada de traductor con selectores de idioma origen/destino y una transcripción guardada.
  • Te sientes cómodo con el modelo manejando actividad de voz e intercambio de turnos internamente, sin control explícito del usuario.

Elige gpt-realtime-translate (API Realtime) si

  • Estás construyendo una aplicación de desarrollador donde el tiempo-al-primer-audio-traducido importa más que el margen de comprensión.
  • Tu lista de idiomas de salida cabe dentro de 13 idiomas.
  • Sirves audiencias de idiomas índicos (hindi, tamil, telugu) donde la propia evaluación de OpenAI reporta 12.5% de reducción WER sobre alternativas.
  • Puedes construir la capa de cara al consumidor (UI, telefonía, manejo de errores, respaldos de cambio de código) sobre la API de OpenAI.
  • Aceptas el balance velocidad-vs-comprensión (4.53/5 comprensión vs 4.63 para el pipeline DIY en el mismo benchmark) a cambio de una llamada API en lugar de dos.

Elige Whisper + GPT-4o-mini DIY si

  • Necesitas idiomas de salida arbitrarios fuera del límite de 13 idiomas.
  • Necesitas control total de prompts y glosarios para vocabulario especializado o restricciones de estilo.
  • Tienes capacidad de ingeniería para VAD, detección de puntos finales, filtrado de alucinaciones, UI de streaming y telefonía.
  • Quieres menor costo por minuto de audio ($0.006 Whisper) y puedes aceptar precios por token GPT-4o-mini.
  • Quieres integrar traducción con la superficie de capacidad más amplia de la API Realtime (uso de herramientas, instrucciones del sistema) que el modo de traducción dedicado no expone.

Donde una herramienta diferente puede encajar mejor

Las tres superficies de OpenAI cubren la mayoría de casos de uso de traducción en vivo, pero cada una vive dentro de una forma específica: ChatGPT Voice es un chatbot con traducción, `gpt-realtime-translate` es una API para desarrolladores, y Whisper + GPT-4o-mini es un conjunto de bloques de construcción. Una superficie dedicada de app-traductor — con salida de texto + audio en streaming que puedes leer mientras escuchas, atribución por hablante, transcripciones mostradas con compromiso controlado que nunca se retraen, llamadas telefónicas salientes traducidas, y un nivel gratuito fuera de una puerta de suscripción — es una categoría de producto diferente. LiveLingo (publicando esta guía) se sitúa ahí. Balance honesto: la salida de audio de LiveLingo funciona a través del motor de texto a voz predeterminado de la plataforma anfitriona, por lo que la voz hablada es menos expresiva que la de `gpt-realtime-translate`; la interfaz conversacional de ChatGPT Voice puede sentirse más natural que una UI dedicada de traductor para intercambio casual. Especificaciones lado a lado: /es/compare/chatgpt-translation. Números de benchmark: /es/research/benchmark-2026.

8. 8. Preguntas Frecuentes

¿Qué traducción en vivo ofrece OpenAI en 2026?

OpenAI ofrece traducción en vivo a través de tres superficies desde mediados de 2026. ChatGPT Voice incluye un modo de traducción en vivo para suscriptores de pago (Plus, Teams, Enterprise, Edu). `gpt-realtime-translate` es un modelo dedicado de traducción de voz a voz en streaming en la API Realtime, lanzado el 7 de mayo de 2026, con precio de $0.034 por minuto de audio de entrada con más de 70 idiomas de entrada y 13 idiomas de salida. Un pipeline DIY de Whisper-large (voz a texto) y GPT-4o-mini (traducción) sigue disponible para desarrolladores que quieren pares de idiomas arbitrarios y control total del stack.

¿Cómo funciona la traducción en vivo de ChatGPT Voice?

Toca el ícono de Voice en el compositor de mensajes de la app ChatGPT, luego pídele al asistente que traduzca — ej. "traduce entre inglés y japonés." El modelo sigue traduciendo a través de turnos hasta que se le dice que pare o cambie idiomas. Disponible para suscriptores pagos de ChatGPT (Plus ~$20/mes, Teams, Enterprise o Edu). Es una superficie de voz conversacional, no una UI dedicada de traductor con selectores de idioma origen/destino, pares de transcripción origen-y-traducido, o marcación de llamadas.

¿Qué es gpt-realtime-translate?

El modelo dedicado de traducción de voz a voz en streaming de OpenAI en la API Realtime, lanzado el 7 de mayo de 2026. Entrenado con miles de horas de audio de intérpretes profesionales. Más de 70 idiomas de entrada → 13 idiomas de salida. Con precio de $0.034 por minuto de audio de entrada. Devuelve audio traducido más transcripciones de texto tanto de origen como de salida. Usuarios empresariales documentados en el lanzamiento incluyen Deutsche Telekom y Vimeo.

¿Aún puedes construir un traductor en vivo con Whisper y GPT-4o-mini?

Sí. El pipeline DIY (Whisper-large $0.006/min audio, 99 idiomas origen; GPT-4o-mini por token) sigue siendo la ruta OpenAI más flexible — soporta pares de idiomas arbitrarios y da control total sobre segmentación, prompts y formato de salida. El balance es costo de ingeniería: la API de Whisper no segmenta habla continua en límites de enunciados, por lo que el desarrollador debe construir VAD, lógica de puntos finales, filtrado de alucinaciones, UI de streaming y telefonía.

¿Cuáles son la latencia y comprensión medidas de gpt-realtime-translate?

En el addendum del benchmark de Investigación LiveLingo (10 de junio de 2026), `gpt-realtime-translate` tuvo la latencia de primer-audio más rápida de cualquier sistema probado — mediana 711 ms desde inicio de habla hasta primer audio traducido. El compuesto de fidelidad de comprensión fue 4.53 / 5, el más bajo de los seis sistemas medidos. En habla continua, la voz traducida se quedó atrás del hablante — mediana 3.8 s, derivando hasta 20.3 s en audio denso. Errores recurrentes: inserciones extrañas, inversiones de significado, sustituciones de nombres propios. Fuente: livelingo.io/research/benchmark-2026.

¿Estos números reflejan la experiencia del usuario de ChatGPT Voice?

No. Los números medidos son para la llamada API Realtime de `gpt-realtime-translate` cruda. ChatGPT Voice está construido sobre la misma infraestructura Realtime pero la app de consumidor añade su propio VAD del lado del cliente, estado de conversación, renderizado de UI, y puede aplicar suavizado del lado del servidor no medido por separado. Un usuario de ChatGPT Voice puede ver latencia percibida diferente, deriva de retraso y comportamiento de cambio de código que los números de nivel API reportan. Trata el benchmark publicado como el piso de experiencia del desarrollador en el endpoint API Realtime, no el techo del usuario ChatGPT-Voice.

¿Cómo maneja OpenAI el cambio de código?

Según la documentación para desarrolladores de OpenAI, `gpt-realtime-translate` puede omitir habla ya en el idioma de salida. En el benchmark de LiveLingo esto se manifestó como silencio en el clip VOA zh→en en la marca de 86 segundos cuando la fuente cambió a inglés. Gemini 3.5 Live Translate exhibe la misma brecha en el mismo clip. Los sistemas de transcripción de texto en streaming que pasan habla del idioma objetivo a la transcripción mostrada no tienen esta brecha.

¿Cuándo deberías elegir qué superficie de OpenAI?

ChatGPT Voice traducción en vivo si ya pagas por ChatGPT Plus o superior y aceptas una interfaz conversacional. `gpt-realtime-translate` si construyes una aplicación de desarrollador donde la velocidad-al-primer-audio importa más que la estabilidad de texto mostrado, tu lista de idiomas de salida cabe dentro de 13, y puedes construir la superficie de consumidor encima. Whisper + GPT-4o-mini DIY si necesitas idiomas de salida arbitrarios, control total de prompts y glosarios, menor costo por minuto, y capacidad de ingeniería para construir VAD, detección de puntos finales, filtrado de alucinaciones, UI de streaming y telefonía.

9. 9. Fuentes

  • OpenAI. Advancing voice intelligence with new models in the API. Blog de OpenAI, 7 de mayo de 2026. openai.com
  • OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. Cookbook de OpenAI. developers.openai.com
  • OpenAI Developers. Realtime and audio (guía de la API Realtime). developers.openai.com
  • OpenAI. ChatGPT Voice mode (página de características para consumidores). chatgpt.com
  • OpenAI. API pricing (tarifas por modelo). openai.com/api/pricing
  • OpenAI. ChatGPT pricing (niveles para consumidores). openai.com/chatgpt/pricing
  • OpenAI. Speech-to-text guide (documentación de Whisper). platform.openai.com
  • Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time, 7 de mayo de 2026. tomsguide.com
  • 9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak, 7 de mayo de 2026. 9to5mac.com
  • Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT. slator.com
  • openai/whisper. GitHub Discussions — alucinaciones en clips cortos. github.com
  • LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — addendum OpenAI gpt-realtime-translate, 10 de junio de 2026. livelingo.io/research/benchmark-2026
  • LiveLingo. LiveLingo vs ChatGPT: Traducción de Voz en Tiempo Real Comparada (2026). livelingo.io/compare/chatgpt-translation

Precios, disponibilidad, usuarios de lanzamiento y detalles de acceso de nivel consumidor verificados contra las fuentes primarias arriba el 10 de junio de 2026. OpenAI puede cambiar niveles, precios, cobertura de idiomas y comportamiento del modelo; consulta las fuentes enlazadas para el estado actual antes de confiar en cualquier número específico.

¿Listo para Romper la Barrera del Idioma?

Prueba LiveLingo gratis — 5 minutos de traducción de voz en tiempo real cada día, sin tarjeta de crédito. Actualiza a Pro para llamadas traducidas, resúmenes de reuniones con IA y 300 minutos al mes.

Prueba LiveLingo Gratis
Traducción en Vivo de OpenAI (2026): ChatGPT Voice vs API | LiveLingo