LiveLingoLiveLingoTry free

Dịch Thuật Trực Tiếp OpenAI (2026): ChatGPT Voice, gpt-realtime-translate và Whisper+GPT So Sánh

OpenAI cung cấp dịch thuật giọng nói trực tiếp trên ba nền tảng tính đến tháng 6/2026: chế độ dịch trực tiếp của ChatGPT Voice dành cho người dùng trả phí, mô hình chuyên dụng `gpt-realtime-translate` trong Realtime API cho nhà phát triển, và pipeline tự xây dựng Whisper + GPT-4o-mini vẫn là lựa chọn linh hoạt nhất. Hướng dẫn này mô tả từng nền tảng, sự đánh đổi giữa chúng, những hạn chế mà tài liệu chính thức của OpenAI tiết lộ, và các con số đo lường độc lập từ benchmark có thể tái tạo đã được công bố.

1. 1. Những Gì OpenAI Cung Cấp Cho Dịch Thuật Trực Tiếp Năm 2026

Ba nền tảng riêng biệt có sẵn tính đến tháng 6/2026:

ChatGPT Voice — dịch trực tiếp (người tiêu dùng). Dịch thuật trực tiếp được tích hợp vào chế độ Voice của ChatGPT. Người dùng chạm vào biểu tượng Voice trong trình soạn tin nhắn ứng dụng ChatGPT, yêu cầu trợ lý dịch giữa các ngôn ngữ, và mô hình tiếp tục dịch thuật trong suốt cuộc trò chuyện cho đến khi được yêu cầu dừng hoặc chuyển đổi. Điều này yêu cầu gói ChatGPT trả phí — Plus, Teams, Enterprise, hoặc Edu (trang giá OpenAI cho người tiêu dùng; Plus khoảng ~$20/tháng). Không có quyền truy cập dịch trực tiếp miễn phí trong kiểm tra của chúng tôi tính đến ngày 10/6/2026. Giao diện là dạng trò chuyện thay vì UI dịch thuật chuyên dụng; không có bộ chọn cặp ngôn ngữ nguồn/đích, không có bản ghi âm hai cột nguồn-và-đã-dịch, và không có tính năng quay số.

`gpt-realtime-translate` (mô hình API chuyên dụng). Ngày 7/5/2026, OpenAI phát hành mô hình dịch thuật giọng nói-sang-giọng nói streaming được xây dựng riêng trong Realtime API. Theo thông báo của OpenAI, mô hình được "huấn luyện trên hàng nghìn giờ âm thanh thông dịch viên chuyên nghiệp" và được cấu hình để "chỉ thực hiện dịch thuật và chờ đủ ngữ cảnh trước khi tạo ra giọng nói." Nó hỗ trợ 70+ ngôn ngữ đầu vào được dịch sang 13 ngôn ngữ đầu ra và có giá $0.034 mỗi phút âm thanh đầu vào (giá OpenAI API). Các đối tác ra mắt được ghi tên trong thông báo của OpenAI: Deutsche Telekom (hỗ trợ khách hàng đa ngôn ngữ) và Vimeo (dịch thuật thời gian thực các video giáo dục sản phẩm).

Whisper + GPT-4o-mini (pipeline tự xây dựng). Con đường nhà phát triển ban đầu vẫn có sẵn. Whisper-large xử lý giọng nói-sang-văn bản (99 ngôn ngữ theo hướng dẫn speech-to-text của OpenAI; $0.006/phút âm thanh trên trang giá API OpenAI); GPT-4o-mini xử lý dịch thuật (giá theo token, cùng nguồn). Kết hợp, chúng hỗ trợ các cặp ngôn ngữ tùy ý — không bị giới hạn 13 đầu ra như `gpt-realtime-translate` — và cho nhà phát triển toàn quyền kiểm soát việc phân đoạn, prompting, xử lý từ điển, và định dạng đầu ra. Chi phí là kỹ thuật: API của Whisper không phân đoạn giọng nói liên tục thành ranh giới phát ngôn, vì vậy nhà phát triển phải cung cấp phát hiện hoạt động giọng nói (VAD), logic điểm cuối, lọc ảo giác, UI streaming, và telephony.

2. 2. ChatGPT Voice — Chế Độ Dịch Trực Tiếp (Người Tiêu Dùng)

ChatGPT Voice với dịch thuật trực tiếp chạy trong ứng dụng ChatGPT cho người tiêu dùng trên iOS, Android, và web. Người dùng mở phiên Voice và đưa ra hướng dẫn dịch thuật cho trợ lý như "dịch giữa tiếng Anh và tiếng Nhật." Mô hình sau đó dịch từng phát ngôn của người nói sang ngôn ngữ đích được yêu cầu một cách liên tục, qua các lượt, cho đến khi người dùng yêu cầu dừng, chuyển ngôn ngữ, hoặc kết thúc phiên.

Truy cập yêu cầu gói ChatGPT trả phí. Chế độ Voice nâng cấp với dịch trực tiếp có sẵn cho người dùng ChatGPT Plus (~$20/tháng theo trang giá người tiêu dùng OpenAI), Teams, Enterprise, và Edu; truy cập được khởi tạo qua biểu tượng Voice trong trình soạn tin nhắn (như được ghi tại chatgpt.com/features/voice và xác nhận bởi Tom's Guide9to5Mac's launch coverage). Tính năng dịch trực tiếp không xuất hiện trên gói miễn phí trong kiểm tra của chúng tôi tính đến ngày 10/6/2026.

Giao diện cung cấp gì, và không cung cấp gì. Trải nghiệm người dùng là một phiên Voice trò chuyện — tự nhiên cho trao đổi đa ngôn ngữ một-đối-một hoặc cuộc trò chuyện trực tiếp nhóm nhỏ. Nó không bao gồm UI dịch thuật chuyên dụng với bộ chọn ngôn ngữ nguồn/đích, cặp bản ghi âm hai cột nguồn-và-đã-dịch mà bạn có thể đọc khi nghe, xuất phiên, ghi chú cuộc họp, hoặc quay số điện thoại ra ngoài. Mô hình xử lý hoạt động giọng nói và luân phiên nội bộ; người dùng không có quyền kiểm soát rõ ràng về thời gian điểm cuối, từ điển, hoặc kiểu prompt.

Mô hình cơ bản và hành vi. Dịch trực tiếp ChatGPT Voice được xây dựng trên họ mô hình Realtime của OpenAI. Báo cáo ra mắt ngày 7/5/2026 (Tom's Guide, 9to5Mac, Slator) cho thấy nền tảng Voice cho người tiêu dùng sử dụng cùng hạ tầng Realtime lưu trữ `gpt-realtime-translate`, với phát hiện hoạt động giọng nói tầng ứng dụng người tiêu dùng, trạng thái trò chuyện, và kết xuất UI ở trên. Tài liệu mô hình công khai của OpenAI không mô tả thẻ mô hình riêng cho biến thể dịch Voice người tiêu dùng tính đến ngày 10/6/2026.

3. 3. gpt-realtime-translate — Mô Hình API Chuyên Dụng

`gpt-realtime-translate` là mô hình dịch thuật được xây dựng riêng đầu tiên của OpenAI, phát hành ngày 7/5/2026 trong Realtime API. Nó khác biệt với tuyến đường tự xây dựng Whisper + GPT-4o-mini ở chỗ việc chuyển đổi giọng nói-sang-giọng nói streaming xảy ra trong một mô hình duy nhất thay vì qua hai lời gọi API được prompt độc lập.

Thông số kỹ thuật. Theo cookbook nhà phát triển của OpenAI: 70+ ngôn ngữ đầu vào tự động phát hiện, 13 ngôn ngữ đầu ra. Giá $0.034 mỗi phút âm thanh đầu vào. Trả về âm thanh đã dịch cộng với bản ghi văn bản của cả giọng nói nguồn và đầu ra đã dịch — một nền tảng bản ghi mà chế độ ChatGPT Voice cho người tiêu dùng không hiển thị. Không có phân biệt người nói và không có lựa chọn giọng nói. Đầu ra giọng nói không thể được sửa đổi sau khi được phát ra.

Huấn luyện và hành vi. OpenAI tuyên bố mô hình được "huấn luyện trên hàng nghìn giờ âm thanh thông dịch viên chuyên nghiệp, giúp nó chỉ thực hiện dịch thuật và chờ đủ ngữ cảnh trước khi tạo ra giọng nói." Trong đánh giá của chính OpenAI, mô hình đạt Tỷ lệ Lỗi Từ thấp hơn 12.5% so với bất kỳ mô hình nào khác được thử nghiệm trên tiếng Hindi, Tamil, và Telugu — điểm mạnh ngôn ngữ Ấn Độ được ghi nhận của bản phát hành.

Ràng buộc chế độ dịch thuật. Theo cookbook OpenAI, lời gọi API chế độ dịch thuật là một nền tảng bị ràng buộc so với việc sử dụng Realtime API tổng quát. Đầu vào văn bản không được hỗ trợ trong chế độ dịch thuật, và sử dụng công cụ cũng như hướng dẫn hệ thống bị vô hiệu hóa — đầu vào là âm thanh, đầu ra là âm thanh cộng bản ghi, và mô hình hoạt động như một thông dịch viên chuyên dụng thay vì trợ lý giọng nói tổng quát.

4. 4. Whisper + GPT-4o-mini — Pipeline Tự Xây Dựng

Tuyến đường Whisper + GPT-4o-mini vẫn có sẵn và tiếp tục là lựa chọn đúng cho các nhà phát triển cần những hành vi mà mô hình dịch thuật chuyên dụng không cung cấp: các ngôn ngữ đầu ra tùy ý ngoài giới hạn 13 ngôn ngữ, kiểm soát prompt và từ điển chi tiết, chiến lược phân đoạn tùy chỉnh, hoặc tích hợp với các khả năng Realtime API khác như sử dụng công cụ.

Thông số kỹ thuật. Whisper-large hỗ trợ 99 ngôn ngữ đầu vào cho giọng nói-sang-văn bản (hướng dẫn speech-to-text OpenAI) với giá $0.006 mỗi phút âm thanh (trang giá OpenAI). GPT-4o-mini xử lý bước dịch thuật với giá theo token (cũng trên trang giá OpenAI). Hai dịch vụ là các lời gọi mạng độc lập; tổng chi phí mỗi phút phụ thuộc vào độ dài bản ghi nhưng thường thấp hơn `gpt-realtime-translate` cho sử dụng đích tiếng Anh, và nỗ lực kỹ thuật cao hơn.

Những gì nhà phát triển phải cung cấp. Dịch thuật giọng nói thời gian thực sản xuất trên Whisper + GPT-4o-mini yêu cầu các thành phần sau, không có thành phần nào OpenAI cung cấp:

  • Phát hiện hoạt động giọng nói (VAD). API của Whisper hiển thị phiên âm trên các đoạn âm thanh hoàn thành nhưng không phân đoạn giọng nói liên tục thành ranh giới phát ngôn; nhà phát triển cung cấp VAD riêng để quyết định khi nào gửi mỗi đoạn. Không có nó, không có tín hiệu cho khi một phát ngôn kết thúc.
  • Logic điểm cuối. Quyết định có chờ thêm âm thanh (độ trễ thấp hơn, nhiều sửa đổi hơn) hay cam kết sớm (độ trễ cao hơn, ít sửa đổi hơn). Sự đánh đổi định nghĩa trải nghiệm người dùng.
  • Lọc ảo giác. Whisper được báo cáo rộng rãi là ảo giác văn bản tiếng Anh filler trên các clip ngắn — các artifact phổ biến bao gồm "Thanks for watching!" và "Subscribe!", được quy cho nội dung YouTube trong corpus huấn luyện của nó; xem thảo luận GitHub openai/whisper về ảo giác trên clip ngắn. Triển khai sản xuất yêu cầu lọc những thứ này.
  • Primitives UI streaming. Lớp phủ gated-commit để văn bản hiển thị không rút lại, tích lũy các đoạn một phần, hành vi cuộn, và hiển thị nguồn-vs-đã-dịch.
  • Tích hợp telephony cho sử dụng cuộc gọi điện thoại (Twilio, Telnyx, hoặc tương tự), bao gồm cầu nối âm thanh hai chiều và tuân thủ tiết lộ ghi âm cuộc gọi theo từng khu vực pháp lý.
  • Giám sát chi phí + xử lý giới hạn tỷ lệ. Ở mức sử dụng duy trì, chi phí mỗi phút có thể vượt quá gói đăng ký cố định, và giới hạn tỷ lệ mỗi tài khoản yêu cầu chiến lược backoff.

5. 5. Hiệu Suất Của Chúng Trên Đo Lường Độc Lập

Những gì chúng tôi đo (và những gì chúng tôi không đo). Các con số dưới đây dành cho điểm cuối API `gpt-realtime-translate` Realtime thô, được truy cập theo chương trình qua Python SDK, với cùng ranh giới phát ngôn energy-VAD được áp dụng đồng nhất cho mọi hệ thống tầng API trong benchmark LiveLingo. Chúng tôi không đo ứng dụng người tiêu dùng ChatGPT Voice riêng biệt. ChatGPT Voice được xây dựng trên cùng hạ tầng Realtime nhưng nền tảng người tiêu dùng thêm VAD phía client riêng, trạng thái trò chuyện, kết xuất UI, và có thể áp dụng làm mượt phía server mà chúng tôi không có quyền truy cập theo chương trình. Người dùng ChatGPT Voice có thể thấy độ trễ cảm nhận, drift lag, và hành vi code-switching khác với những gì báo cáo số tầng API. Khi phần này trích dẫn các hành vi cụ thể (drift, code-switch silence), hãy coi chúng là sàn trải nghiệm nhà phát triển trên điểm cuối Realtime API, không phải trần người tiêu dùng ChatGPT-Voice. Các con số pipeline tự xây dựng Whisper + GPT-4o-mini tương tự là tầng API — chúng phản ánh những gì nhà phát triển trải nghiệm sau khi lắp ráp pipeline cơ bản ngây thơ, không phải hệ thống sản xuất được điều chỉnh thủ công.

Khả năng tái tạo. Mọi con số trong phần này tái tạo từ cùng ba clip âm thanh VOA public-domain 120 giây, cùng điểm cuối Realtime API, và cùng harness Python được sử dụng cho benchmark bốn hệ thống ban đầu. Âm thanh (`audio.zip`), JSON thô mỗi phát ngôn (`openai-realtime-results.json`), và phương pháp được công bố tại livelingo.io/research/benchmark-2026.

gpt-realtime-translate — hành vi đo được

Âm thanh đầu tiên nhanh nhất của bất kỳ hệ thống nào được thử nghiệm. Trung vị 711 ms từ bắt đầu giọng nói đến âm thanh đã dịch đầu tiên qua tất cả 120 phiên đánh giá (p10–p90: 485–1,012 ms). Để tham khảo, Gemini 3.5 Live Translate đo ~2.9 s trên cùng metric — `gpt-realtime-translate` nhanh hơn khoảng bốn lần đến đầu ra đầu tiên. Tốc độ là điểm mạnh thực sự của mô hình này.

Composite độ trung thực hiểu: 4.53 / 5. Được chấm điểm bởi hai thẩm phán LLM frontier độc lập (GPT-4o, Gemini 2.5 Flash) sử dụng cùng rubric và prompt thẩm phán như benchmark bốn hệ thống ban đầu, qua 120 phát ngôn và bốn cặp ngôn ngữ (en→es, en→zh-CN, en→ja, en→de). Đây là điểm thấp nhất trong sáu hệ thống được đo. Head-to-head với LiveLingo ở cấp độ cell: 4 thắng, 80 hòa, 36 thua. Các lớp lỗi tái diễn: cụm từ thừa được thêm vào đầu phát ngôn, đảo nghĩa (ví dụ "I was stressed about work" được hiển thị như một mong muốn bị căng thẳng), và tên riêng được thay thế bằng danh từ chung.

So sánh sáu hệ thống trên benchmark LiveLingo 2026 (120 phát ngôn, bốn cặp ngôn ngữ, composite 2-thẩm phán). Dữ liệu thô: livelingo.io/research/benchmark-2026.

Hệ thốngHiểu (0–5)Độ trễ âm thanh đầu tiên / TTFNền tảng đầu ra
LiveLingo4.961,518 ms (bản ghi cam kết)Text + âm thanh streaming
Gemini 3.5 Live Translate4.93~3,100 ms (TTF)Âm thanh (text sidecar)
Google Cloud STT v2 + Translate v34.77~26,736 ms (Bản ghi Cuối cùng)Bản ghi
Azure Speech Translation4.65~4,755 ms (Bản ghi Cuối cùng)Bản ghi
Whisper + GPT-4o-mini (DIY)4.632,720 ms (Bản ghi Cuối cùng)Bản ghi
**OpenAI gpt-realtime-translate****4.53****~3,800 ms (TTF)****Âm thanh + bản ghi**

Drift lag trên giọng nói liên tục. Tốc độ-đến-đầu ra-đầu tiên xuất sắc, nhưng trên âm thanh mở rộng, giọng nói đã dịch dần dần tụt lại phía sau người nói khi backlog chưa dịch tích lũy. Đo từ mỗi kết thúc phát ngôn nguồn đến sự xuất hiện của giọng nói đã dịch cho phát ngôn đó: trung vị 3.8 s, drift xa đến 20.3 s phía sau trên clip VOA pt→en dày đặc. Đây là sự đánh đổi mà kiến trúc âm thanh-sang-âm thanh tạo ra — đầu ra giọng nói tự nhiên bị ràng buộc bởi tốc độ nói của giọng nói tổng hợp, vì vậy mô hình không thể "bắt kịp" nhanh hơn tốc độ con người.

Thất bại giọng nói code-switched. Theo tài liệu nhà phát triển của OpenAI, mô hình có thể bỏ qua giọng nói đã ở ngôn ngữ đầu ra. Trên clip VOA zh→en trong benchmark LiveLingo, điều này xuất hiện như sự im lặng ở mốc 86 giây, khi nguồn chuyển sang giọng nói tiếng Anh — mô hình im lặng và không chuyển nội dung tiếng Anh qua đầu ra đã dịch. Gemini 3.5 Live Translate thể hiện cùng khoảng trống trên cùng clip; đây là vấn đề lớp cho các mô hình dịch thuật chuyên dụng âm thanh-sang-âm thanh (xem callout bên dưới). Các pipeline hiển thị bản ghi văn bản streaming có thể chuyển nội dung code-switched qua bản ghi hiển thị thay vì bỏ nó.

Nền tảng đầu ra. Âm thanh đã dịch cộng bản ghi văn bản của cả nguồn và đầu ra — gần hơn với nền tảng sản phẩm transcript-first hơn API chỉ âm thanh của Gemini 3.5 Live Translate. Không có phân biệt người nói. Không có lựa chọn giọng nói. Đầu ra giọng nói không thể được sửa đổi sau khi được phát ra.

Âm thanh-sang-âm thanh là một lớp với các hạn chế chung. Các hành vi trong phần này không độc nhất với `gpt-realtime-translate`. Gemini 3.5 Live Translate của Google, và bất kỳ mô hình dịch thuật âm thanh-sang-âm thanh speech-to-speech hiện tại nào khác, kế thừa cùng lớp đánh đổi: (1) drift lag tốc độ đầu ra trên giọng nói liên tục, vì âm thanh đã dịch bị ràng buộc bởi tốc độ nói và không thể bắt kịp nhanh hơn tốc độ con người; (2) im lặng code-switch, vì mô hình được cấu hình để bỏ qua giọng nói đã ở ngôn ngữ đầu ra; (3) không có phân biệt người nói in-line trong âm thanh tổng hợp; (4) cam kết giữa phát ngôn không thể đảo ngược, vì âm thanh đã nói không thể được rút lại như văn bản hiển thị có thể. Các hệ thống hiển thị bản ghi văn bản streaming — bao gồm tuyến đường tự xây dựng Whisper + GPT-4o-mini của OpenAI và các sản phẩm dịch thuật streaming-transcript như LiveLingo — tránh (2), (3), và (4) với chi phí là overhead độ trễ hai mô hình hoặc một modality đầu ra khác. Coi điều này như một insight danh mục, không phải một phê bình một mô hình.

Pipeline tự xây dựng Whisper + GPT-4o-mini — hành vi đo được

Trên cùng ba clip VOA 120 giây, một pipeline cơ bản ngây thơ Whisper-large + GPT-4o-mini đo được Độ trễ Bản ghi Cuối cùng trung vị 2,720 ms (95% CI 1,880–3,396, n=28), và phát ra ≈22 Xóa Chuẩn hóa mỗi clip 120 giây (sửa đổi token qua các đoạn một phần). Composite độ trung thực hiểu là 4.63 / 5 qua cùng bốn cặp ngôn ngữ.

Đáng chú ý: pipeline tự xây dựng ghi điểm hiểu cao hơn mô hình chuyên dụng `gpt-realtime-translate` (4.63 vs 4.53). Mô hình chuyên dụng nhanh hơn đến đầu ra đầu tiên và dễ tích hợp hơn, nhưng trên benchmark này pipeline hai mô hình cũ đọc nghĩa nguồn chính xác hơn một chút. Sự khác biệt nằm trong ~0.10 trên thang điểm 5 điểm và phản ánh các ưu tiên thiết kế khác nhau — tốc độ và đơn giản vận hành cho mô hình chuyên dụng, độ chính xác bản ghi và kiểm soát prompt cho pipeline.

6. 6. Những Gì Tài Liệu Chính Thức Của OpenAI Tiết Lộ

Các tuyên bố được rút trực tiếp từ thông báo ngày 7/5/2026 và tài liệu nhà phát triển của OpenAI:

  • Corpus huấn luyện. "Được huấn luyện trên hàng nghìn giờ âm thanh thông dịch viên chuyên nghiệp, giúp nó chỉ thực hiện dịch thuật và chờ đủ ngữ cảnh trước khi tạo ra giọng nói." (Nguồn: thông báo OpenAI.)
  • Phạm vi ngôn ngữ. 70+ ngôn ngữ đầu vào sang 13 ngôn ngữ đầu ra. (Nguồn: OpenAI Cookbook.)
  • Điểm mạnh ngôn ngữ Ấn Độ. "Tỷ lệ Lỗi Từ thấp hơn 12.5% so với bất kỳ mô hình nào khác được thử nghiệm" trên tiếng Hindi, Tamil, và Telugu trong đánh giá của chính OpenAI. (Nguồn: thông báo OpenAI.)
  • Hành vi code-switching. Tài liệu OpenAI tuyên bố mô hình có thể bỏ qua giọng nói đã ở ngôn ngữ đầu ra — một lựa chọn thiết kế tạo ra sự im lặng trên âm thanh code-switched.
  • Ràng buộc chế độ. Trong chế độ dịch thuật, đầu vào văn bản không được hỗ trợ và sử dụng công cụ cộng hướng dẫn hệ thống bị vô hiệu hóa. Lời gọi chế độ dịch thuật là một nền tảng bị ràng buộc so với Realtime API tổng quát.
  • Định dạng đầu ra (nhà phát triển). Âm thanh được gửi và nhận ở PCM thô với streaming chunked. Tham khảo hướng dẫn Realtime API cho định dạng chính xác và hướng dẫn kích thước chunk.
  • Giá. $0.034 mỗi phút âm thanh đầu vào cho `gpt-realtime-translate`. $0.006 mỗi phút âm thanh cho Whisper. GPT-4o-mini theo token. ChatGPT Plus khoảng $20/tháng và là gói trả phí tối thiểu cho quyền truy cập dịch trực tiếp ChatGPT Voice. (Giá API OpenAIgiá người tiêu dùng ChatGPT.)
  • Người dùng ra mắt được ghi nhận. Deutsche Telekom (hỗ trợ khách hàng đa ngôn ngữ) và Vimeo (dịch thuật thời gian thực các video giáo dục sản phẩm). (Nguồn: thông báo OpenAI.)

7. 7. Khi Nào Chọn Nền Tảng Nào — Và Khi Nào Công Cụ Khác Phù Hợp

Chọn dịch trực tiếp ChatGPT Voice nếu

  • Bạn đã trả tiền cho ChatGPT Plus (hoặc Teams, Enterprise, Edu) và không muốn thêm gói đăng ký khác.
  • Trường hợp sử dụng của bạn là cuộc trò chuyện một-đối-một hoặc trực tiếp nhóm nhỏ thay vì cuộc họp nhiều bên cần bản ghi hiển thị.
  • Bạn chấp nhận giao diện chế độ trò chuyện thay vì UI dịch thuật chuyên dụng với bộ chọn ngôn ngữ nguồn/đích và bản ghi đã lưu.
  • Bạn thoải mái với việc mô hình xử lý hoạt động giọng nói và luân phiên nội bộ, không có kiểm soát rõ ràng của người dùng.

Chọn gpt-realtime-translate (Realtime API) nếu

  • Bạn đang xây dựng ứng dụng nhà phát triển nơi thời gian-đến-âm thanh-đã-dịch-đầu tiên quan trọng hơn biên độ hiểu.
  • Danh sách ngôn ngữ đầu ra của bạn phù hợp trong 13 ngôn ngữ.
  • Bạn phục vụ khán giả ngôn ngữ Ấn Độ (Hindi, Tamil, Telugu) nơi đánh giá của chính OpenAI báo cáo giảm 12.5% WER so với các lựa chọn thay thế.
  • Bạn có thể xây dựng lớp hướng người tiêu dùng (UI, telephony, xử lý lỗi, fallback code-switch) trên API của OpenAI.
  • Bạn chấp nhận sự đánh đổi tốc độ-vs-hiểu (4.53/5 hiểu vs 4.63 cho pipeline tự xây dựng trên cùng benchmark) để đổi lấy một lời gọi API thay vì hai.

Chọn tự xây dựng Whisper + GPT-4o-mini nếu

  • Bạn cần các ngôn ngữ đầu ra tùy ý ngoài giới hạn 13 ngôn ngữ.
  • Bạn cần kiểm soát prompt và từ điển đầy đủ cho từ vựng chuyên môn hoặc ràng buộc phong cách.
  • Bạn có năng lực kỹ thuật cho VAD, phát hiện điểm cuối, lọc ảo giác, UI streaming, và telephony.
  • Bạn muốn chi phí âm thanh mỗi phút thấp hơn ($0.006 Whisper) và có thể chấp nhận giá GPT-4o-mini theo token.
  • Bạn muốn tích hợp dịch thuật với nền tảng khả năng Realtime API rộng hơn (sử dụng công cụ, hướng dẫn hệ thống) mà chế độ dịch thuật chuyên dụng không hiển thị.

Khi một công cụ khác có thể phù hợp hơn

Ba nền tảng của OpenAI bao phủ hầu hết các trường hợp sử dụng dịch thuật trực tiếp, nhưng mỗi cái sống trong một hình dạng cụ thể: ChatGPT Voice là chatbot với dịch thuật, `gpt-realtime-translate` là API nhà phát triển, và Whisper + GPT-4o-mini là một bộ khối xây dựng. Một nền tảng ứng dụng dịch thuật chuyên dụng — với đầu ra text + âm thanh streaming mà bạn có thể đọc khi nghe, phân biệt mỗi người nói, bản ghi hiển thị gated-commit không bao giờ rút lại, cuộc gọi điện thoại đã dịch ra ngoài, và gói miễn phí ngoài cổng đăng ký — là một danh mục sản phẩm khác. LiveLingo (xuất bản hướng dẫn này) nằm ở đó. Đánh đổi trung thực: đầu ra âm thanh của LiveLingo chạy qua engine text-to-speech mặc định của nền tảng host, vì vậy giọng nói được nói ít biểu cảm hơn của `gpt-realtime-translate`; giao diện trò chuyện của ChatGPT Voice có thể cảm thấy tự nhiên hơn UI dịch thuật chuyên dụng cho trao đổi qua lại thông thường. Thông số kỹ thuật cạnh nhau: /compare/chatgpt-translation. Số benchmark: /research/benchmark-2026.

8. 8. Câu Hỏi Thường Gặp

OpenAI cung cấp dịch thuật trực tiếp gì năm 2026?

OpenAI cung cấp dịch thuật trực tiếp trên ba nền tảng tính đến giữa năm 2026. ChatGPT Voice bao gồm chế độ dịch trực tiếp cho người đăng ký trả phí (Plus, Teams, Enterprise, Edu). `gpt-realtime-translate` là mô hình dịch thuật giọng nói-sang-giọng nói streaming chuyên dụng trong Realtime API, phát hành ngày 7/5/2026, có giá $0.034 mỗi phút âm thanh đầu vào với 70+ ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra. Một pipeline tự xây dựng Whisper-large (giọng nói-sang-văn bản) và GPT-4o-mini (dịch thuật) vẫn có sẵn cho các nhà phát triển muốn các cặp ngôn ngữ tùy ý và kiểm soát đầy đủ stack.

Dịch trực tiếp ChatGPT Voice hoạt động như thế nào?

Chạm vào biểu tượng Voice trong trình soạn tin nhắn ứng dụng ChatGPT, sau đó yêu cầu trợ lý dịch — ví dụ "dịch giữa tiếng Anh và tiếng Nhật." Mô hình tiếp tục dịch qua các lượt cho đến khi được yêu cầu dừng hoặc chuyển ngôn ngữ. Có sẵn cho người đăng ký ChatGPT trả phí (Plus ~$20/tháng, Teams, Enterprise, hoặc Edu). Đó là nền tảng giọng nói trò chuyện, không phải UI dịch thuật chuyên dụng với bộ chọn ngôn ngữ nguồn/đích, cặp bản ghi nguồn-và-đã-dịch, hoặc quay số.

gpt-realtime-translate là gì?

Mô hình dịch thuật giọng nói-sang-giọng nói streaming chuyên dụng của OpenAI trong Realtime API, phát hành ngày 7/5/2026. Được huấn luyện trên hàng nghìn giờ âm thanh thông dịch viên chuyên nghiệp. 70+ ngôn ngữ đầu vào → 13 ngôn ngữ đầu ra. Có giá $0.034 mỗi phút âm thanh đầu vào. Trả về âm thanh đã dịch cộng bản ghi văn bản của cả nguồn và đầu ra. Người dùng doanh nghiệp được ghi nhận tại thời điểm ra mắt bao gồm Deutsche Telekom và Vimeo.

Bạn vẫn có thể xây dựng dịch thuật trực tiếp với Whisper và GPT-4o-mini không?

Có. Pipeline tự xây dựng (Whisper-large $0.006/phút âm thanh, 99 ngôn ngữ nguồn; GPT-4o-mini theo token) vẫn là tuyến đường OpenAI linh hoạt nhất — nó hỗ trợ các cặp ngôn ngữ tùy ý và cho kiểm soát đầy đủ về phân đoạn, prompting, và định dạng đầu ra. Sự đánh đổi là chi phí kỹ thuật: API của Whisper không phân đoạn giọng nói liên tục thành ranh giới phát ngôn, vì vậy nhà phát triển phải xây dựng VAD, logic điểm cuối, lọc ảo giác, UI streaming, và telephony.

Độ trễ và hiểu được đo của gpt-realtime-translate là gì?

Trong phụ lục benchmark LiveLingo Research (ngày 10/6/2026), `gpt-realtime-translate` có độ trễ âm thanh đầu tiên nhanh nhất của bất kỳ hệ thống nào được thử nghiệm — trung vị 711 ms từ bắt đầu giọng nói đến âm thanh đã dịch đầu tiên. Composite độ trung thực hiểu là 4.53 / 5, thấp nhất trong sáu hệ thống được đo. Trên giọng nói liên tục, giọng nói đã dịch tụt lại phía sau người nói — trung vị 3.8 s, drift lên đến 20.3 s trên âm thanh dày đặc. Lỗi tái diễn: chèn thừa, đảo nghĩa, thay thế tên riêng. Nguồn: livelingo.io/research/benchmark-2026.

Những con số này có phản ánh trải nghiệm người dùng ChatGPT Voice không?

Không. Các con số đo được dành cho lời gọi API `gpt-realtime-translate` Realtime thô. ChatGPT Voice được xây dựng trên cùng hạ tầng Realtime nhưng ứng dụng người tiêu dùng thêm VAD phía client riêng, trạng thái trò chuyện, kết xuất UI, và có thể áp dụng làm mượt phía server không được đo riêng biệt. Người dùng ChatGPT Voice có thể thấy độ trễ cảm nhận, drift lag, và hành vi code-switching khác với những gì báo cáo số tầng API. Coi benchmark đã xuất bản như sàn trải nghiệm nhà phát triển trên điểm cuối Realtime API, không phải trần người dùng ChatGPT-Voice.

OpenAI xử lý code-switching như thế nào?

Theo tài liệu nhà phát triển của OpenAI, `gpt-realtime-translate` có thể bỏ qua giọng nói đã ở ngôn ngữ đầu ra. Trong benchmark LiveLingo điều này xuất hiện như sự im lặng trên clip VOA zh→en ở mốc 86 giây khi nguồn chuyển sang tiếng Anh. Gemini 3.5 Live Translate thể hiện cùng khoảng trống trên cùng clip. Các hệ thống bản ghi văn bản streaming chuyển giọng nói ngôn ngữ đích qua bản ghi hiển thị không có khoảng trống này.

Khi nào bạn nên chọn nền tảng OpenAI nào?

Dịch trực tiếp ChatGPT Voice nếu bạn đã trả tiền cho ChatGPT Plus hoặc cao hơn và chấp nhận giao diện trò chuyện. `gpt-realtime-translate` nếu bạn xây dựng ứng dụng nhà phát triển nơi tốc độ-đến-âm thanh-đầu tiên quan trọng hơn tính ổn định văn bản hiển thị, danh sách ngôn ngữ đầu ra của bạn phù hợp trong 13, và bạn có thể xây dựng nền tảng người tiêu dùng ở trên. Tự xây dựng Whisper + GPT-4o-mini nếu bạn cần các ngôn ngữ đầu ra tùy ý, kiểm soát prompt và từ điển đầy đủ, chi phí mỗi phút thấp hơn, và năng lực kỹ thuật để xây dựng VAD, phát hiện điểm cuối, lọc ảo giác, UI streaming, và telephony.

9. 9. Nguồn

  • OpenAI. Advancing voice intelligence with new models in the API. OpenAI blog, ngày 7/5/2026. openai.com
  • OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. OpenAI Cookbook. developers.openai.com
  • OpenAI Developers. Realtime and audio (hướng dẫn Realtime API). developers.openai.com
  • OpenAI. ChatGPT Voice mode (trang tính năng người tiêu dùng). chatgpt.com
  • OpenAI. API pricing (tỷ lệ mỗi mô hình). openai.com/api/pricing
  • OpenAI. ChatGPT pricing (gói người tiêu dùng). openai.com/chatgpt/pricing
  • OpenAI. Speech-to-text guide (tài liệu Whisper). platform.openai.com
  • Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time, ngày 7/5/2026. tomsguide.com
  • 9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak, ngày 7/5/2026. 9to5mac.com
  • Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT. slator.com
  • openai/whisper. GitHub Discussions — ảo giác trên clip ngắn. github.com
  • LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — phụ lục OpenAI gpt-realtime-translate, ngày 10/6/2026. livelingo.io/research/benchmark-2026
  • LiveLingo. LiveLingo vs ChatGPT: Real-Time Voice Translation Compared (2026). livelingo.io/compare/chatgpt-translation

Giá, tính khả dụng, người dùng ra mắt, và chi tiết truy cập gói người tiêu dùng được xác minh với các nguồn chính ở trên vào ngày 10/6/2026. OpenAI có thể thay đổi gói, giá, phạm vi ngôn ngữ, và hành vi mô hình; tham khảo các nguồn được liên kết cho trạng thái hiện tại trước khi dựa vào bất kỳ con số cụ thể nào.

Sẵn sàng phá vỡ rào cản ngôn ngữ?

Dùng thử LiveLingo miễn phí — 5 phút dịch thuật giọng nói thời gian thực mỗi ngày, không cần thẻ tín dụng. Nâng cấp Pro để có cuộc gọi dịch thuật, ghi chú cuộc họp AI và 300 phút mỗi tháng.

Dùng thử LiveLingo miễn phí
Dịch Thuật Trực Tiếp OpenAI (2026): ChatGPT Voice, API & Whisper | LiveLingo