1. 1. 2026년 OpenAI가 제공하는 실시간 번역 서비스
2026년 6월 기준으로 세 가지 서로 다른 플랫폼이 제공됩니다:
ChatGPT 음성 — 실시간 번역 (소비자용). ChatGPT의 음성 모드에 실시간 번역 기능이 내장되어 있습니다. 사용자는 ChatGPT 앱 메시지 작성기의 음성 아이콘을 탭하고, 어시스턴트에게 언어 간 번역을 요청하면, 모델이 중단하거나 전환하라고 지시할 때까지 대화 전반에 걸쳐 계속 번역합니다. 이 기능은 유료 ChatGPT 구독이 필요합니다 — Plus, Teams, Enterprise, 또는 Edu (OpenAI 소비자 가격 페이지; Plus는 월 약 $20). 2026년 6월 10일 확인 결과, 무료 티어에서는 실시간 번역 소비자 접근이 제공되지 않습니다. 인터페이스는 전용 번역기 UI가 아닌 대화형이며, 소스/타겟 언어 쌍 선택기, 소스-번역 텍스트 2열 전사, 통화 다이얼링 기능이 없습니다.
`gpt-realtime-translate` (전용 API 모델). 2026년 5월 7일, OpenAI는 Realtime API 내에서 전용 스트리밍 음성-음성 번역 모델을 출시했습니다. OpenAI의 발표에 따르면, 이 모델은 "수천 시간의 전문 통역사 오디오로 훈련"되었으며 "번역 전용으로 유지되고 충분한 맥락을 얻은 후 음성을 생성"하도록 구성되었습니다. 70개 이상의 입력 언어를 13개 출력 언어로 번역하며, 분당 $0.034의 입력 오디오 가격 (OpenAI API 가격)으로 책정됩니다. OpenAI 발표에서 명시된 출시 파트너: Deutsche Telekom (다국어 고객 지원) 및 Vimeo (제품 교육 비디오의 실시간 번역).
Whisper + GPT-4o-mini (DIY 파이프라인). 기존 개발자 경로는 여전히 사용 가능합니다. Whisper-large가 음성-텍스트 변환을 처리하고 (OpenAI의 음성-텍스트 가이드에 따르면 99개 언어; OpenAI API 가격 페이지에서 분당 $0.006); GPT-4o-mini가 번역을 처리합니다 (토큰당 가격, 동일 출처). 결합하면 `gpt-realtime-translate`의 13개 출력 제한이 아닌 임의의 언어 쌍을 지원하며, 개발자에게 청킹, 프롬프팅, 용어집 처리, 출력 형식에 대한 완전한 제어권을 제공합니다. 대가는 엔지니어링입니다: Whisper의 API는 연속 음성을 발화 경계로 분할하지 않으므로, 개발자가 음성 활동 감지(VAD), 엔드포인트 로직, 환각 필터링, 스트리밍 UI, 전화 통신을 제공해야 합니다.
2. 2. ChatGPT 음성 — 실시간 번역 모드 (소비자용)
실시간 번역 기능이 있는 ChatGPT 음성은 iOS, Android, 웹의 소비자용 ChatGPT 앱 내에서 실행됩니다. 사용자는 음성 세션을 열고 "영어와 일본어 간 번역"과 같은 번역 지시를 어시스턴트에게 제공합니다. 그러면 모델이 사용자가 중단, 언어 전환, 또는 세션 종료를 지시할 때까지 각 화자의 발화를 요청된 타겟 언어로 지속적으로 번역합니다.
접근에는 유료 ChatGPT 구독이 필요합니다. 실시간 번역이 포함된 업그레이드된 음성 모드는 ChatGPT Plus (OpenAI의 소비자 가격 페이지에 따르면 월 약 $20), Teams, Enterprise, Edu 사용자에게 제공되며, 메시지 작성기의 음성 아이콘을 통해 시작됩니다 (chatgpt.com/features/voice에 문서화되어 있고 Tom's Guide 및 9to5Mac의 출시 보도에서 확인됨). 2026년 6월 10일 확인 결과, 실시간 번역 기능은 무료 티어에서 제공되지 않습니다.
인터페이스가 제공하는 것과 제공하지 않는 것. 사용자 경험은 대화형 음성 세션입니다 — 일대일 다국어 교류나 소규모 대면 대화에 자연스럽습니다. 소스/타겟 언어 선택기, 듣는 동안 읽을 수 있는 소스-번역 텍스트 2열 전사 쌍, 세션 내보내기, 회의록, 또는 발신 전화 다이얼링이 포함된 전용 번역기 UI는 포함되지 않습니다. 모델이 음성 활동과 턴테이킹을 내부적으로 처리하며, 사용자는 엔드포인트 타이밍, 용어집, 또는 프롬프트 스타일에 대한 명시적 제어권이 없습니다.
기반 모델과 동작. ChatGPT 음성의 실시간 번역은 OpenAI의 Realtime 모델 패밀리를 기반으로 구축되었습니다. 2026년 5월 7일 출시 보도 (Tom's Guide, 9to5Mac, Slator)에 따르면, 소비자 음성 플랫폼은 `gpt-realtime-translate`를 호스팅하는 동일한 Realtime 인프라를 사용하며, 그 위에 소비자 앱 레이어 음성 활동 감지, 대화 상태, UI 렌더링이 추가됩니다. 2026년 6월 10일 기준, OpenAI의 공개 모델 문서에는 소비자 음성 번역 변형에 대한 별도의 모델 카드가 설명되어 있지 않습니다.
3. 3. gpt-realtime-translate — 전용 API 모델
`gpt-realtime-translate`는 2026년 5월 7일 Realtime API 내에서 출시된 OpenAI의 첫 번째 전용 번역 모델입니다. 스트리밍 음성-음성 변환이 두 개의 독립적으로 프롬프트된 API 호출이 아닌 단일 모델에서 발생한다는 점에서 DIY Whisper + GPT-4o-mini 경로와 구별됩니다.
사양. OpenAI의 개발자 쿡북에 따르면: 70개 이상의 입력 언어 자동 감지, 13개 출력 언어. 입력 오디오 분당 $0.034 가격. 소스 음성과 번역된 출력 모두의 텍스트 전사와 함께 번역된 오디오를 반환합니다 — 소비자 ChatGPT 음성 모드에서는 노출되지 않는 전사 플랫폼입니다. 화자 구분 없음, 음성 선택 없음. 음성 출력은 방출된 후 수정할 수 없습니다.
훈련과 동작. OpenAI는 이 모델이 "수천 시간의 전문 통역사 오디오로 훈련되어 번역 전용으로 유지되고 충분한 맥락을 얻은 후 음성을 생성하는 데 도움이 된다"고 명시했습니다. OpenAI 자체 평가에서 이 모델은 힌디어, 타밀어, 텔루구어에서 테스트된 다른 모든 모델보다 12.5% 낮은 단어 오류율을 제공했습니다 — 출시의 문서화된 인도어 강점입니다.
번역 모드 제약. OpenAI 쿡북에 따르면, 번역 모드 API 호출은 일반 Realtime API 사용에 비해 제한된 플랫폼입니다. 번역 모드에서는 텍스트 입력이 지원되지 않으며, 도구 사용과 시스템 지시가 비활성화됩니다 — 입력은 오디오, 출력은 오디오와 전사이며, 모델은 일반 음성 어시스턴트가 아닌 전용 통역사로 동작합니다.
4. 4. Whisper + GPT-4o-mini — DIY 파이프라인
Whisper + GPT-4o-mini 경로는 여전히 사용 가능하며, 전용 번역 모델이 제공하지 않는 동작이 필요한 개발자에게 올바른 선택입니다: 13개 언어 제한을 벗어난 임의의 출력 언어, 세밀한 프롬프트와 용어집 제어, 사용자 정의 청킹 전략, 또는 도구 사용과 같은 다른 Realtime API 기능과의 통합.
사양. Whisper-large는 음성-텍스트를 위해 99개 입력 언어를 지원하며 (OpenAI 음성-텍스트 가이드) 분당 $0.006 오디오 (OpenAI 가격 페이지)입니다. GPT-4o-mini가 토큰당 가격으로 번역 단계를 처리합니다 (OpenAI 가격 페이지에도 있음). 두 서비스는 독립적인 네트워크 호출이며, 총 분당 비용은 전사 길이에 따라 달라지지만 일반적으로 영어 타겟 사용에서는 `gpt-realtime-translate`보다 낮고, 엔지니어링 노력은 더 높습니다.
개발자가 제공해야 하는 것. Whisper + GPT-4o-mini 위에서 프로덕션 실시간 음성 번역을 구현하려면 다음 구성 요소가 필요하며, OpenAI는 이 중 어느 것도 제공하지 않습니다:
- 음성 활동 감지(VAD). Whisper의 API는 완료된 오디오 청크에서 전사를 제공하지만 연속 음성을 발화 경계로 분할하지 않습니다. 개발자가 각 청크를 언제 보낼지 결정하는 별도의 VAD를 제공해야 합니다. 이것 없이는 발화가 언제 끝나는지에 대한 신호가 없습니다.
- 엔드포인트 로직. 더 많은 오디오를 기다릴지 (낮은 지연시간, 더 많은 수정) 또는 일찍 커밋할지 (높은 지연시간, 적은 수정) 결정합니다. 이 트레이드오프가 사용자 경험을 정의합니다.
- 환각 필터링. Whisper는 짧은 클립에서 영어 필러 텍스트를 환각하는 것으로 널리 보고됩니다 — 일반적인 아티팩트에는 "시청해 주셔서 감사합니다!" 및 "구독하세요!"가 포함되며, 이는 훈련 코퍼스의 YouTube 콘텐츠에 기인합니다. 짧은 클립에서의 환각에 대한 openai/whisper GitHub 토론을 참조하세요. 프로덕션 배포에는 이를 필터링해야 합니다.
- 스트리밍 UI 프리미티브. 표시된 텍스트가 철회되지 않도록 하는 게이트 커밋 오버레이, 부분 청크의 누적, 스크롤 동작, 소스 대 번역 표시.
- 전화 통신 통합 전화 통화 사용을 위한 (Twilio, Telnyx 또는 유사), 양방향 오디오 브리징 및 관할권별 통화 녹음 공개 규정 준수 포함.
- 비용 모니터링 + 속도 제한 처리. 지속적인 사용에서 분당 비용이 정액 구독을 초과할 수 있으며, 계정당 속도 제한에는 백오프 전략이 필요합니다.
5. 5. 독립적 측정에서의 성능
측정한 것 (그리고 측정하지 않은 것). 아래 수치는 Python SDK를 통해 프로그래밍 방식으로 액세스한 원시 `gpt-realtime-translate` Realtime API 엔드포인트에 대한 것으로, LiveLingo 벤치마크의 모든 API 티어 시스템에 동일하게 적용된 동일한 에너지-VAD 발화 경계를 사용합니다. ChatGPT 음성 소비자 앱은 별도로 측정하지 않았습니다. ChatGPT 음성은 동일한 Realtime 인프라를 기반으로 구축되지만 소비자 플랫폼은 자체 클라이언트 측 VAD, 대화 상태, UI 렌더링을 추가하며, 프로그래밍 방식으로 액세스할 수 없는 서버 측 스무딩을 적용할 수 있습니다. ChatGPT 음성 사용자는 API 티어 수치가 보고하는 것과 다른 인지된 지연시간, 지연 드리프트, 코드 스위칭 동작을 볼 수 있습니다. 이 섹션에서 특정 동작(드리프트, 코드 스위치 침묵)을 인용하는 경우, 이를 ChatGPT 음성 소비자 상한이 아닌 Realtime API 엔드포인트의 개발자 경험 하한으로 취급하세요. Whisper + GPT-4o-mini DIY 파이프라인 수치도 마찬가지로 API 티어입니다 — 이는 손으로 조정된 프로덕션 시스템이 아닌 순진한 기준선 파이프라인을 조립한 후 개발자가 경험하는 것을 반영합니다.
재현성. 이 섹션의 모든 수치는 동일한 세 개의 120초 VOA 공개 도메인 오디오 클립, 동일한 Realtime API 엔드포인트, 원래 4시스템 벤치마크에 사용된 동일한 Python 하네스에서 재현됩니다. 오디오 (`audio.zip`), 원시 발화별 JSON (`openai-realtime-results.json`), 방법론은 livelingo.io/research/benchmark-2026에서 공개됩니다.
gpt-realtime-translate — 측정된 동작
테스트된 모든 시스템 중 가장 빠른 첫 오디오. 모든 120개 평가 세션에서 음성 시작부터 첫 번째 번역된 오디오까지 중앙값 711ms (p10–p90: 485–1,012ms). 참고로, Gemini 3.5 Live Translate는 동일한 메트릭에서 약 2.9초를 측정했습니다 — `gpt-realtime-translate`는 첫 출력까지 약 4배 빠릅니다. 속도가 이 모델의 진정한 강점입니다.
이해도 충실성 종합: 4.53 / 5. 원래 4시스템 벤치마크와 동일한 루브릭과 판정 프롬프트를 사용하여 두 개의 독립적인 프론티어 LLM 판정자(GPT-4o, Gemini 2.5 Flash)가 120개 발화와 4개 언어 쌍(en→es, en→zh-CN, en→ja, en→de)에 걸쳐 채점했습니다. 이는 측정된 6개 시스템 중 가장 낮은 점수였습니다. 셀 수준에서 LiveLingo와의 직접 대결: 4승, 80무, 36패. 반복되는 오류 클래스: 발화 시작 부분에 추가되는 불필요한 구문, 의미 역전 (예: "직장 때문에 스트레스를 받았다"를 스트레스를 받고 싶다는 소망으로 렌더링), 고유명사를 일반명사로 대체.
LiveLingo 2026 벤치마크의 6시스템 비교 (120개 발화, 4개 언어 쌍, 2판정자 종합). 원시 데이터: livelingo.io/research/benchmark-2026.
| 시스템 | 이해도 (0–5) | 첫 오디오 / TTF 지연시간 | 출력 플랫폼 |
|---|---|---|---|
| LiveLingo | 4.96 | 1,518 ms (커밋된 전사) | 스트리밍 텍스트 + 오디오 |
| Gemini 3.5 Live Translate | 4.93 | ~3,100 ms (TTF) | 오디오 (텍스트 사이드카) |
| Google Cloud STT v2 + Translate v3 | 4.77 | ~26,736 ms (최종 전사) | 전사 |
| Azure Speech Translation | 4.65 | ~4,755 ms (최종 전사) | 전사 |
| Whisper + GPT-4o-mini (DIY) | 4.63 | 2,720 ms (최종 전사) | 전사 |
| **OpenAI gpt-realtime-translate** | **4.53** | **~3,800 ms (TTF)** | **오디오 + 전사** |
연속 음성에서의 지연 드리프트. 첫 출력까지의 속도는 우수하지만, 확장된 오디오에서는 번역되지 않은 백로그가 누적되면서 번역된 음성이 화자보다 점진적으로 뒤처집니다. 각 소스 발화 끝에서 해당 발화의 번역된 음성 도착까지 측정: 중앙값 3.8초, 밀도 높은 pt→en VOA 클립에서 최대 20.3초까지 뒤처짐. 이는 오디오-오디오 아키텍처가 만드는 트레이드오프입니다 — 음성 출력은 자연스럽게 합성된 음성의 말하기 속도에 의해 제한되므로, 모델이 인간 속도보다 빠르게 "따라잡을" 수 없습니다.
코드 스위치된 음성 실패. OpenAI의 개발자 문서에 따르면, 모델은 이미 출력 언어인 음성을 건너뛸 수 있습니다. LiveLingo 벤치마크의 zh→en VOA 클립에서 이는 86초 지점에서 침묵으로 나타났는데, 소스가 영어 음성으로 전환했을 때 — 모델이 침묵하고 영어 콘텐츠를 번역된 출력으로 전달하지 않았습니다. Gemini 3.5 Live Translate도 동일한 클립에서 동일한 간격을 보입니다. 이는 오디오-오디오 전용 번역 모델의 클래스 문제입니다 (아래 콜아웃 참조). 스트리밍 텍스트 전사를 제공하는 파이프라인은 코드 스위치된 콘텐츠를 삭제하는 대신 표시된 전사로 전달할 수 있습니다.
출력 플랫폼. 번역된 오디오와 소스 및 출력 모두의 텍스트 전사 — Gemini 3.5 Live Translate의 오디오 전용 API보다 전사 우선 제품 플랫폼에 가깝습니다. 화자 구분 없음. 음성 선택 없음. 음성 출력은 방출된 후 수정할 수 없습니다.
오디오-오디오는 공유된 제한사항을 가진 클래스입니다. 이 섹션의 동작은 `gpt-realtime-translate`에만 고유한 것이 아닙니다. Google의 Gemini 3.5 Live Translate 및 기타 현재 음성-음성 오디오-오디오 번역 모델은 동일한 클래스의 트레이드오프를 상속합니다: (1) 연속 음성에서의 출력 속도 지연 드리프트, 번역된 오디오가 말하기 속도에 의해 제한되어 인간 속도보다 빠르게 따라잡을 수 없기 때문; (2) 코드 스위치 침묵, 모델이 이미 출력 언어인 음성을 건너뛰도록 구성되어 있기 때문; (3) 합성된 오디오에서 인라인 화자 구분 없음; (4) 되돌릴 수 없는 발화 중간 커밋, 음성 오디오는 표시된 텍스트처럼 철회할 수 없기 때문. 스트리밍 텍스트 전사를 제공하는 시스템 — OpenAI의 DIY Whisper + GPT-4o-mini 경로와 LiveLingo와 같은 스트리밍 전사 번역 제품 포함 — 은 2모델 지연시간 오버헤드 또는 다른 출력 모달리티의 비용으로 (2), (3), (4)를 피합니다. 이를 한 모델에 대한 비판이 아닌 카테고리 통찰로 취급하세요.
Whisper + GPT-4o-mini DIY 파이프라인 — 측정된 동작
동일한 세 개의 120초 VOA 클립에서, 순진한 기준선 Whisper-large + GPT-4o-mini 파이프라인은 중앙값 최종 전사 지연시간 2,720ms (95% CI 1,880–3,396, n=28)를 측정했으며, 120초 클립당 약 22개의 정규화된 삭제 (부분 청크 간 토큰 수정)를 방출했습니다. 이해도 충실성 종합은 동일한 4개 언어 쌍에서 4.63 / 5였습니다.
주목할 점: DIY 파이프라인은 전용 `gpt-realtime-translate` 모델보다 높은 이해도를 기록했습니다 (4.63 대 4.53). 전용 모델은 첫 출력까지 더 빠르고 통합하기 쉽지만, 이 벤치마크에서 오래된 2모델 파이프라인이 소스 의미를 약간 더 정확하게 읽습니다. 차이는 5점 척도에서 약 0.10 내에 있으며 다른 설계 우선순위를 반영합니다 — 전용 모델의 속도와 운영 단순성, 파이프라인의 전사 정확성과 프롬프트 제어.
6. 6. OpenAI 자체 문서에서 공개한 내용
OpenAI의 2026년 5월 7일 발표와 개발자 문서에서 직접 인용한 내용:
- 훈련 코퍼스. "수천 시간의 전문 통역사 오디오로 훈련되어 번역 전용으로 유지되고 충분한 맥락을 얻은 후 음성을 생성하는 데 도움이 됩니다." (출처: OpenAI 발표.)
- 언어 커버리지. 70개 이상의 입력 언어를 13개 출력 언어로. (출처: OpenAI 쿡북.)
- 인도어 강점. OpenAI 자체 평가에서 힌디어, 타밀어, 텔루구어에서 "테스트된 다른 모든 모델보다 12.5% 낮은 단어 오류율". (출처: OpenAI 발표.)
- 코드 스위칭 동작. OpenAI 문서에 따르면 모델은 이미 출력 언어인 음성을 건너뛸 수 있습니다 — 코드 스위치된 오디오에서 침묵을 생성하는 설계 선택.
- 모드 제약. 번역 모드에서는 텍스트 입력이 지원되지 않으며 도구 사용과 시스템 지시가 비활성화됩니다. 번역 모드 호출은 일반 Realtime API에 비해 제한된 플랫폼입니다.
- 출력 형식 (개발자). 오디오는 청크 스트리밍과 함께 원시 PCM으로 송수신됩니다. 정확한 형식과 청크 크기 가이드는 Realtime API 가이드를 참조하세요.
- 가격. `gpt-realtime-translate`는 입력 오디오 분당 $0.034. Whisper는 분당 $0.006 오디오. GPT-4o-mini는 토큰당. ChatGPT Plus는 약 월 $20이며 ChatGPT 음성 실시간 번역 액세스를 위한 최소 유료 티어입니다. (OpenAI API 가격 및 ChatGPT 소비자 가격.)
- 문서화된 출시 사용자. Deutsche Telekom (다국어 고객 지원) 및 Vimeo (제품 교육 비디오의 실시간 번역). (출처: OpenAI 발표.)
7. 7. 언제 어떤 플랫폼을 선택할지 — 그리고 언제 다른 도구가 적합한지
다음의 경우 ChatGPT 음성 실시간 번역을 선택하세요
- 이미 ChatGPT Plus (또는 Teams, Enterprise, Edu)를 결제하고 있으며 다른 구독을 추가하고 싶지 않은 경우.
- 사용 사례가 표시된 전사가 필요한 다자간 회의가 아닌 일대일 또는 소규모 대면 대화인 경우.
- 소스/타겟 언어 선택기와 저장된 전사가 있는 전용 번역기 UI가 아닌 대화 모드 인터페이스를 받아들이는 경우.
- 명시적인 사용자 제어 없이 모델이 음성 활동과 턴테이킹을 내부적으로 처리하는 것에 만족하는 경우.
다음의 경우 gpt-realtime-translate (Realtime API)를 선택하세요
- 이해도 마진보다 첫 번역 오디오까지의 시간이 더 중요한 개발자 애플리케이션을 구축하는 경우.
- 출력 언어 목록이 13개 언어 내에 맞는 경우.
- OpenAI 자체 평가에서 대안 대비 12.5% WER 감소를 보고한 인도어 사용자층(힌디어, 타밀어, 텔루구어)을 서비스하는 경우.
- OpenAI의 API 위에 소비자 대면 레이어(UI, 전화 통신, 오류 처리, 코드 스위치 폴백)를 구축할 수 있는 경우.
- 두 번의 API 호출 대신 한 번의 호출을 위해 속도 대 이해도 트레이드오프(동일한 벤치마크에서 DIY 파이프라인의 4.63 대비 4.53/5 이해도)를 받아들이는 경우.
다음의 경우 Whisper + GPT-4o-mini DIY를 선택하세요
- 13개 언어 제한을 벗어난 임의의 출력 언어가 필요한 경우.
- 전문 어휘나 스타일 제약을 위한 완전한 프롬프트와 용어집 제어가 필요한 경우.
- VAD, 엔드포인트 감지, 환각 필터링, 스트리밍 UI, 전화 통신을 위한 엔지니어링 역량이 있는 경우.
- 더 낮은 분당 오디오 비용($0.006 Whisper)을 원하고 토큰당 GPT-4o-mini 가격을 받아들일 수 있는 경우.
- 전용 번역 모드에서 노출되지 않는 더 넓은 Realtime API 기능 플랫폼(도구 사용, 시스템 지시)과 번역을 통합하고 싶은 경우.
다른 도구가 더 적합할 수 있는 경우
OpenAI의 세 플랫폼은 대부분의 실시간 번역 사용 사례를 다루지만, 각각은 특정 형태 내에 존재합니다: ChatGPT 음성은 번역 기능이 있는 챗봇, `gpt-realtime-translate`는 개발자 API, Whisper + GPT-4o-mini는 구성 요소 집합입니다. 전용 번역기 앱 플랫폼 — 듣는 동안 읽을 수 있는 스트리밍 텍스트 + 오디오 출력, 화자별 구분, 절대 철회되지 않는 게이트 커밋 표시 전사, 번역된 발신 전화, 구독 게이트 외부의 무료 티어 — 는 다른 제품 카테고리입니다. LiveLingo (이 가이드를 게시)가 그곳에 위치합니다. 정직한 트레이드오프: LiveLingo의 오디오 출력은 호스트 플랫폼의 기본 텍스트-음성 엔진을 통해 실행되므로, 음성이 `gpt-realtime-translate`보다 덜 표현적입니다. ChatGPT 음성의 대화형 인터페이스는 캐주얼한 주고받기에서 전용 번역기 UI보다 더 자연스럽게 느껴질 수 있습니다. 나란히 비교 사양: /compare/chatgpt-translation. 벤치마크 수치: /research/benchmark-2026.
8. 8. 자주 묻는 질문
2026년에 OpenAI는 어떤 실시간 번역을 제공하나요?
OpenAI는 2026년 중반 기준으로 세 플랫폼을 통해 실시간 번역을 제공합니다. ChatGPT 음성에는 유료 구독자(Plus, Teams, Enterprise, Edu)를 위한 실시간 번역 모드가 포함되어 있습니다. `gpt-realtime-translate`는 2026년 5월 7일 출시된 Realtime API의 전용 스트리밍 음성-음성 번역 모델로, 70개 이상의 입력 언어와 13개 출력 언어를 지원하며 입력 오디오 분당 $0.034로 가격이 책정됩니다. Whisper-large (음성-텍스트)와 GPT-4o-mini (번역)의 DIY 파이프라인은 임의의 언어 쌍과 스택의 완전한 제어를 원하는 개발자에게 여전히 사용 가능합니다.
ChatGPT 음성 실시간 번역은 어떻게 작동하나요?
ChatGPT 앱 메시지 작성기의 음성 아이콘을 탭한 다음, 어시스턴트에게 번역을 요청합니다 — 예: "영어와 일본어 간 번역". 모델은 중단하거나 언어를 전환하라고 지시할 때까지 턴 간에 계속 번역합니다. 유료 ChatGPT 구독자(Plus 월 약 $20, Teams, Enterprise, 또는 Edu)에게 제공됩니다. 소스/타겟 언어 선택기, 소스-번역 전사 쌍, 또는 통화 다이얼링이 있는 전용 번역기 UI가 아닌 대화형 음성 플랫폼입니다.
gpt-realtime-translate란 무엇인가요?
2026년 5월 7일 출시된 Realtime API의 OpenAI 전용 스트리밍 음성-음성 번역 모델입니다. 수천 시간의 전문 통역사 오디오로 훈련되었습니다. 70개 이상의 입력 언어 → 13개 출력 언어. 입력 오디오 분당 $0.034로 가격 책정. 소스와 출력 모두의 텍스트 전사와 함께 번역된 오디오를 반환합니다. 출시 시 문서화된 기업 사용자에는 Deutsche Telekom과 Vimeo가 포함됩니다.
Whisper와 GPT-4o-mini로 여전히 실시간 번역기를 구축할 수 있나요?
예. DIY 파이프라인 (Whisper-large 분당 $0.006 오디오, 99개 소스 언어; GPT-4o-mini 토큰당)은 여전히 가장 유연한 OpenAI 경로입니다 — 임의의 언어 쌍을 지원하고 청킹, 프롬프팅, 출력 형식에 대한 완전한 제어권을 제공합니다. 트레이드오프는 엔지니어링 비용입니다: Whisper의 API는 연속 음성을 발화 경계로 분할하지 않으므로, 개발자가 VAD, 엔드포인트 로직, 환각 필터링, 스트리밍 UI, 전화 통신을 구축해야 합니다.
gpt-realtime-translate의 측정된 지연시간과 이해도는 어떻게 되나요?
LiveLingo Research 벤치마크 부록 (2026년 6월 10일)에서, `gpt-realtime-translate`는 테스트된 모든 시스템 중 가장 빠른 첫 오디오 지연시간을 보였습니다 — 음성 시작부터 첫 번역 오디오까지 중앙값 711ms. 이해도 충실성 종합은 4.53 / 5로, 측정된 6개 시스템 중 가장 낮았습니다. 연속 음성에서 번역된 음성이 화자보다 뒤처졌습니다 — 중앙값 3.8초, 밀도 높은 오디오에서 최대 20.3초까지 드리프트. 반복되는 오류: 불필요한 삽입, 의미 역전, 고유명사 대체. 출처: livelingo.io/research/benchmark-2026.
이 수치들이 ChatGPT 음성 사용자 경험을 반영하나요?
아니요. 측정된 수치는 원시 `gpt-realtime-translate` Realtime API 호출에 대한 것입니다. ChatGPT 음성은 동일한 Realtime 인프라를 기반으로 구축되지만 소비자 앱은 자체 클라이언트 측 VAD, 대화 상태, UI 렌더링을 추가하며, 별도로 측정되지 않은 서버 측 스무딩을 적용할 수 있습니다. ChatGPT 음성 사용자는 API 티어 수치가 보고하는 것과 다른 인지된 지연시간, 지연 드리프트, 코드 스위칭 동작을 볼 수 있습니다. 공개된 벤치마크를 ChatGPT 음성 사용자 상한이 아닌 Realtime API 엔드포인트의 개발자 경험 하한으로 취급하세요.
OpenAI는 코드 스위칭을 어떻게 처리하나요?
OpenAI의 개발자 문서에 따르면, `gpt-realtime-translate`는 이미 출력 언어인 음성을 건너뛸 수 있습니다. LiveLingo 벤치마크에서 이는 소스가 영어로 전환했을 때 zh→en VOA 클립의 86초 지점에서 침묵으로 나타났습니다. Gemini 3.5 Live Translate도 동일한 클립에서 동일한 간격을 보입니다. 타겟 언어 음성을 표시된 전사로 전달하는 스트리밍 텍스트 전사 시스템은 이 간격이 없습니다.
언제 어떤 OpenAI 플랫폼을 선택해야 하나요?
이미 ChatGPT Plus 이상을 결제하고 있고 대화형 인터페이스를 받아들인다면 ChatGPT 음성 실시간 번역. 첫 오디오까지의 속도가 표시된 텍스트 안정성보다 중요하고, 출력 언어 목록이 13개 내에 맞으며, 그 위에 소비자 플랫폼을 구축할 수 있다면 `gpt-realtime-translate`. 임의의 출력 언어, 완전한 프롬프트와 용어집 제어, 더 낮은 분당 비용, VAD, 엔드포인트 감지, 환각 필터링, 스트리밍 UI, 전화 통신을 구축할 엔지니어링 역량이 필요하다면 Whisper + GPT-4o-mini DIY.
9. 9. 출처
- OpenAI. API의 새로운 모델로 음성 인텔리전스 발전. OpenAI 블로그, 2026년 5월 7일. openai.com
- OpenAI Developers. gpt-realtime-translate로 실시간 번역 앱 구축. OpenAI 쿡북. developers.openai.com
- OpenAI Developers. Realtime 및 오디오 (Realtime API 가이드). developers.openai.com
- OpenAI. ChatGPT 음성 모드 (소비자 기능 페이지). chatgpt.com
- OpenAI. API 가격 (모델별 요금). openai.com/api/pricing
- OpenAI. ChatGPT 가격 (소비자 티어). openai.com/chatgpt/pricing
- OpenAI. 음성-텍스트 가이드 (Whisper 문서). platform.openai.com
- Tom's Guide. ChatGPT 음성이 더욱 인간적이 되었습니다 — 그리고 이제 실시간으로 번역합니다, 2026년 5월 7일. tomsguide.com
- 9to5Mac. OpenAI가 추론, 번역, 전사하는 새로운 음성 모델을 출시했습니다, 2026년 5월 7일. 9to5mac.com
- Slator. OpenAI가 ChatGPT에서 AI 실시간 음성 번역을 두 배로 늘렸습니다. slator.com
- openai/whisper. GitHub 토론 — 짧은 클립에서의 환각. github.com
- LiveLingo Research. 실시간 음성 번역 벤치마크 2026 — OpenAI gpt-realtime-translate 부록, 2026년 6월 10일. livelingo.io/research/benchmark-2026
- LiveLingo. LiveLingo vs ChatGPT: 실시간 음성 번역 비교 (2026). livelingo.io/compare/chatgpt-translation
가격, 가용성, 출시 사용자, 소비자 티어 액세스 세부사항은 2026년 6월 10일 위의 주요 출처에 대해 확인되었습니다. OpenAI는 티어, 가격, 언어 커버리지, 모델 동작을 변경할 수 있습니다. 특정 수치에 의존하기 전에 현재 상태에 대해서는 링크된 출처를 참조하세요.