LiveLingoLiveLingoTry free

การแปลภาษาแบบเรียลไทม์ของ OpenAI (2026): เปรียบเทียบ ChatGPT Voice, gpt-realtime-translate และ Whisper+GPT

OpenAI เปิดตัวการแปลเสียงแบบเรียลไทม์ผ่าน 3 ช่องทางหลักในเดือนมิถุนายน 2026: โหมดแปลภาษาแบบเรียลไทม์ของ ChatGPT Voice สำหรับผู้ใช้ที่จ่ายเงิน, โมเดล `gpt-realtime-translate` เฉพาะทางใน Realtime API สำหรับนักพัฒนา และไปป์ไลน์ DIY ของ Whisper + GPT-4o-mini ที่ยังคงเป็นทางเลือกที่ยืดหยุ่นที่สุด คู่มือนี้อธิบายแต่ละช่องทาง ข้อดีข้อเสียระหว่างกัน ข้อจำกัดที่ OpenAI เปิดเผยในเอกสารของตัวเอง และตัวเลขที่วัดได้จริงจากเบนช์มาร์กที่เผยแพร่และทำซ้ำได้

1. 1. สิ่งที่ OpenAI เปิดตัวสำหรับการแปลภาษาแบบเรียลไทม์ในปี 2026

มี 3 ช่องทางหลักที่ใช้ได้ตั้งแต่เดือนมิถุนายน 2026:

ChatGPT Voice — การแปลแบบเรียลไทม์ (สำหรับผู้บริโภค) การแปลภาษาแบบเรียลไทม์ถูกสร้างเข้าไปในโหมด Voice ของ ChatGPT ผู้ใช้แตะไอคอน Voice ในตัวเขียนข้อความของแอป ChatGPT ขอให้ผู้ช่วยแปลภาษาระหว่างภาษาต่างๆ และโมเดลจะแปลภาษาต่อเนื่องตลอดการสนทนาจนกว่าจะบอกให้หยุดหรือเปลี่ยน ต้องมีการสมัครสมาชิก ChatGPT แบบเสียเงิน — Plus, Teams, Enterprise หรือ Edu (หน้าราคา OpenAI สำหรับผู้บริโภค; Plus ประมาณ $20/เดือน) ไม่มีการเข้าถึงการแปลแบบเรียลไทม์ในแผนฟรีตามการตรวจสอบของเราณ วันที่ 10 มิถุนายน 2026 อินเทอร์เฟซเป็นแบบสนทนามากกว่า UI แปลภาษาเฉพาะทาง ไม่มีตัวเลือกคู่ภาษาต้นทาง/เป้าหมาย ไม่มีทรานสคริปต์แบบสองคอลัมน์ที่แสดงต้นฉบับและคำแปล และไม่มีการโทรออก

`gpt-realtime-translate` (โมเดล API เฉพาะทาง) เมื่อวันที่ 7 พฤษภาคม 2026 OpenAI เปิดตัวโมเดลแปลเสียงเป็นเสียงแบบสตรีมมิ่งที่สร้างขึ้นเฉพาะทางภายใน Realtime API ตามการประกาศของ OpenAI โมเดลนี้ "ได้รับการฝึกฝนจากเสียงล่ามมืออาชีพหลายพันชั่วโมง" และถูกกำหนดให้ "ทำงานเฉพาะการแปลและรอบริบทเพียงพอก่อนสร้างเสียง" รองรับภาษาต้นทาง 70+ ภาษาแปลเป็นภาษาเป้าหมาย 13 ภาษา และมีราคา $0.034 ต่อนาทีของเสียงต้นทาง (ราคา OpenAI API) พาร์ทเนอร์เปิดตัวที่ระบุชื่อในการประกาศของ OpenAI: Deutsche Telekom (การสนับสนุนลูกค้าหลายภาษา) และ Vimeo (การแปลแบบเรียลไทม์ของวิดีโอการศึกษาผลิตภัณฑ์)

Whisper + GPT-4o-mini (ไปป์ไลน์ DIY) เส้นทางนักพัฒนาเดิมยังคงใช้ได้ Whisper-large จัดการเสียงเป็นข้อความ (99 ภาษาตามคู่มือ speech-to-text ของ OpenAI; $0.006/นาทีเสียงในหน้าราคา API ของ OpenAI); GPT-4o-mini จัดการการแปล (ราคาต่อโทเค็น แหล่งเดียวกัน) รวมกันแล้วรองรับคู่ภาษาใดก็ได้ — ไม่ใช่เพดาน 13 ภาษาเอาต์พุตของ `gpt-realtime-translate` — และให้นักพัฒนาควบคุมการแบ่งส่วน การสร้างพรอมต์ การจัดการศัพท์เฉพาะ และรูปแบบเอาต์พุตได้อย่างเต็มที่ ต้นทุนคือการพัฒนา: API ของ Whisper ไม่แบ่งเสียงต่อเนื่องเป็นขอบเขตการพูด ดังนั้นนักพัฒนาต้องจัดหาการตรวจจับกิจกรรมเสียง (VAD) ตรรกะจุดสิ้นสุด การกรองภาพหลอน UI แบบสตรีมมิ่ง และโทรศัพท์

2. 2. ChatGPT Voice — โหมดแปลภาษาแบบเรียลไทม์ (สำหรับผู้บริโภค)

ChatGPT Voice พร้อมการแปลภาษาแบบเรียลไทม์ทำงานภายในแอป ChatGPT สำหรับผู้บริโภคบน iOS, Android และเว็บ ผู้ใช้เปิดเซสชัน Voice และให้คำสั่งแปลภาษาแก่ผู้ช่วย เช่น "แปลระหว่างภาษาอังกฤษและญี่ปุ่น" จากนั้นโมเดลจะแปลคำพูดของผู้พูดแต่ละคนเป็นภาษาเป้าหมายที่ร้องขออย่างต่อเนื่อง ข้ามเทิร์น จนกว่าผู้ใช้จะบอกให้หยุด เปลี่ยนภาษา หรือจบเซสชัน

การเข้าถึงต้องมีการสมัครสมาชิก ChatGPT แบบเสียเงิน โหมด Voice ที่อัปเกรดพร้อมการแปลแบบเรียลไทม์ใช้ได้กับผู้ใช้ ChatGPT Plus (ประมาณ $20/เดือนตามหน้าราคาผู้บริโภคของ OpenAI), Teams, Enterprise และ Edu การเข้าถึงเริ่มต้นผ่านไอคอน Voice ในตัวเขียนข้อความ (ตามที่ระบุไว้ที่ chatgpt.com/features/voice และยืนยันโดย Tom's Guide และ 9to5Mac ในการรายงานการเปิดตัว) ฟีเจอร์การแปลแบบเรียลไทม์ไม่ปรากฏในแผนฟรีตามการตรวจสอบของเราณ วันที่ 10 มิถุนายน 2026

สิ่งที่อินเทอร์เฟซให้คุณ และสิ่งที่ไม่ให้ ประสบการณ์ผู้ใช้เป็นเซสชัน Voice แบบสนทนา — เป็นธรรมชาติสำหรับการแลกเปลี่ยนข้ามภาษาแบบตัวต่อตัวหรือการสนทนาในบุคคลกลุ่มเล็ก ไม่รวม UI แปลภาษาเฉพาะทางที่มีตัวเลือกภาษาต้นทาง/เป้าหมาย ทรานสคริปต์แบบสองคอลัมน์ที่แสดงต้นฉบับและคำแปลที่คุณสามารถอ่านขณะฟัง การส่งออกเซสชัน บันทึกการประชุม หรือการโทรออก โมเดลจัดการกิจกรรมเสียงและการสลับเทิร์นภายใน ผู้ใช้ไม่มีการควบคุมโดยตรงเหนือเวลาจุดสิ้นสุด ศัพท์เฉพาะ หรือสไตล์พรอมต์

โมเดลพื้นฐานและพฤติกรรม การแปลแบบเรียลไทม์ของ ChatGPT Voice สร้างบนตระกูลโมเดล Realtime ของ OpenAI การรายงานการเปิดตัววันที่ 7 พฤษภาคม 2026 (Tom's Guide, 9to5Mac, Slator) ระบุว่าพื้นผิว Voice สำหรับผู้บริโภคใช้โครงสร้างพื้นฐาน Realtime เดียวกันที่โฮสต์ `gpt-realtime-translate` พร้อมการตรวจจับกิจกรรมเสียงชั้นแอปผู้บริโภค สถานะการสนทนา และการเรนเดอร์ UI ด้านบน เอกสารโมเดลสาธารณะของ OpenAI ไม่อธิบายการ์ดโมเดลแยกสำหรับตัวแปรแปลภาษา Voice ผู้บริโภคณ วันที่ 10 มิถุนายน 2026

3. 3. gpt-realtime-translate — โมเดล API เฉพาะทาง

`gpt-realtime-translate` เป็นโมเดลแปลภาษาที่สร้างขึ้นเฉพาะทางตัวแรกของ OpenAI เปิดตัวเมื่อวันที่ 7 พฤษภาคม 2026 ภายใน Realtime API แตกต่างจากเส้นทาง DIY Whisper + GPT-4o-mini ตรงที่การแปลงเสียงเป็นเสียงแบบสตรีมมิ่งเกิดขึ้นในโมเดลเดียวแทนที่จะเป็นการเรียก API สองครั้งที่สร้างพรอมต์แยกกัน

ข้อมูลจำเพาะ ตาม คู่มือนักพัฒนาของ OpenAI: ภาษาต้นทาง 70+ ภาษาตรวจจับอัตโนมัติ ภาษาเอาต์พุต 13 ภาษา ราคา $0.034 ต่อนาทีของเสียงต้นทาง ส่งคืนเสียงที่แปลแล้วพร้อมทรานสคริปต์ข้อความของทั้งเสียงต้นทางและเอาต์พุตที่แปลแล้ว — พื้นผิวทรานสคริปต์ที่โหมด ChatGPT Voice ผู้บริโภคไม่เปิดเผย ไม่มีการระบุผู้พูดและไม่มีการเลือกเสียง เอาต์พุตที่พูดไม่สามารถแก้ไขได้หลังจากออกมาแล้ว

การฝึกฝนและพฤติกรรม OpenAI ระบุว่าโมเดลนี้ "ได้รับการฝึกฝนจากเสียงล่ามมืออาชีพหลายพันชั่วโมง ซึ่งช่วยให้ทำงานเฉพาะการแปลและรอบริบทเพียงพอก่อนสร้างเสียง" ในการประเมินของ OpenAI เอง โมเดลส่งมอบ Word Error Rates ที่ต่ำกว่า 12.5% เมื่อเทียบกับโมเดลอื่นใดที่ทดสอบในภาษาฮินดี ทมิฬ และเตลูกู — จุดแข็งด้านภาษาอินดิกที่ระบุไว้ในการเปิดตัว

ข้อจำกัดโหมดแปลภาษา ตามคู่มือ OpenAI การเรียก API โหมดแปลภาษาเป็นพื้นผิวที่จำกัดเมื่อเทียบกับการใช้งาน Realtime API ทั่วไป ไม่รองรับการป้อนข้อความในโหมดแปลภาษา และการใช้เครื่องมือและคำสั่งระบบถูกปิดใช้งาน — อินพุตเป็นเสียง เอาต์พุตเป็นเสียงพร้อมทรานสคริปต์ และโมเดลทำงานเป็นล่ามเฉพาะทางแทนที่จะเป็นผู้ช่วยเสียงทั่วไป

4. 4. Whisper + GPT-4o-mini — ไปป์ไลน์ DIY

เส้นทาง Whisper + GPT-4o-mini ยังคงใช้ได้และยังคงเป็นตัวเลือกที่ถูกต้องสำหรับนักพัฒนาที่ต้องการพฤติกรรมที่โมเดลแปลภาษาเฉพาะทางไม่ให้: ภาษาเอาต์พุตใดก็ได้นอกเหนือจากเพดาน 13 ภาษา การควบคุมพรอมต์และศัพท์เฉพาะอย่างละเอียด กลยุทธ์การแบ่งส่วนแบบกำหนดเอง หรือการรวมกับความสามารถ Realtime API อื่นๆ เช่น การใช้เครื่องมือ

ข้อมูลจำเพาะ Whisper-large รองรับภาษาต้นทาง 99 ภาษาสำหรับเสียงเป็นข้อความ (คู่มือ speech-to-text ของ OpenAI) ที่ $0.006 ต่อนาทีเสียง (หน้าราคา OpenAI) GPT-4o-mini จัดการขั้นตอนการแปลด้วยราคาต่อโทเค็น (ในหน้าราคา OpenAI เช่นกัน) บริการทั้งสองเป็นการเรียกเครือข่ายแยกกัน ต้นทุนต่อนาทีรวมขึ้นอยู่กับความยาวทรานสคริปต์ แต่โดยทั่วไปต่ำกว่า `gpt-realtime-translate` สำหรับการใช้งานเป้าหมายภาษาอังกฤษ และความพยายามทางวิศวกรรมสูงกว่า

สิ่งที่นักพัฒนาต้องจัดหา การแปลเสียงแบบเรียลไทม์ในการผลิตบน Whisper + GPT-4o-mini ต้องการส่วนประกอบต่อไปนี้ ซึ่ง OpenAI ไม่ได้จัดส่ง:

  • การตรวจจับกิจกรรมเสียง (VAD) API ของ Whisper แสดงการถอดเสียงในชิ้นเสียงที่เสร็จสมบูรณ์ แต่ไม่แบ่งเสียงต่อเนื่องเป็นขอบเขตการพูด นักพัฒนาจัดหา VAD แยกเพื่อตัดสินใจว่าเมื่อไหร่จะส่งแต่ละชิ้น หากไม่มี จะไม่มีสัญญาณว่าการพูดสิ้นสุดเมื่อไหร่
  • ตรรกะจุดสิ้นสุด ตัดสินใจว่าจะรอเสียงเพิ่มเติม (เวลาแฝงต่ำ การแก้ไขมากกว่า) หรือยืนยันเร็ว (เวลาแฝงสูง การแก้ไขน้อยกว่า) การแลกเปลี่ยนกำหนดประสบการณ์ผู้ใช้
  • การกรองภาพหลอน Whisper มีรายงานอย่างกว้างขวางว่าสร้างข้อความภาษาอังกฤษเติมเต็มในคลิปสั้นๆ — สิ่งประดิษฐ์ทั่วไปรวมถึง "Thanks for watching!" และ "Subscribe!" ที่มาจากเนื้อหา YouTube ในคลังข้อมูลการฝึกฝน ดู การสนทนา GitHub ของ openai/whisper เกี่ยวกับภาพหลอนในคลิปสั้น การปรับใช้ในการผลิตต้องการการกรองเหล่านี้
  • พื้นฐาน UI แบบสตรีมมิ่ง การซ้อนทับการยืนยันแบบมีประตูเพื่อไม่ให้ข้อความที่แสดงถอนกลับ การสะสมชิ้นบางส่วน พฤติกรรมการเลื่อน และการแสดงต้นทาง-เทียบกับ-แปล
  • การรวมโทรศัพท์ สำหรับการใช้งานโทรศัพท์ (Twilio, Telnyx หรือคล้ายกัน) รวมถึงการเชื่อมต่อเสียงสองทิศทางและการปฏิบัติตามการเปิดเผยการบันทึกการโทรตามเขตอำนาจศาล
  • การตรวจสอบต้นทุน + การจัดการขีดจำกัดอัตรา ในการใช้งานอย่างต่อเนื่อง ต้นทุนต่อนาทีสามารถเกินการสมัครสมาชิกแบบเหมาจ่าย และขีดจำกัดอัตราต่อบัญชีต้องการกลยุทธ์การถอยกลับ

5. 5. ประสิทธิภาพในการวัดแบบอิสระ

สิ่งที่เราวัด (และสิ่งที่เราไม่ได้วัด) ตัวเลขด้านล่างเป็นสำหรับจุดปลาย Realtime API ของ `gpt-realtime-translate` ดิบ เข้าถึงผ่านโปรแกรมผ่าน Python SDK ด้วยขอบเขตการพูดของ energy-VAD เดียวกันที่ใช้อย่างสม่ำเสมอกับทุกระบบระดับ API ในเบนช์มาร์ก LiveLingo เราไม่ได้วัดแอปผู้บริโภค ChatGPT Voice แยกต่างหาก ChatGPT Voice สร้างบนโครงสร้างพื้นฐาน Realtime เดียวกัน แต่พื้นผิวผู้บริโภคเพิ่ม VAD ฝั่งไคลเอนต์ สถานะการสนทนา การเรนเดอร์ UI และอาจใช้การปรับให้เรียบฝั่งเซิร์ฟเวอร์ที่เราไม่มีการเข้าถึงผ่านโปรแกรม ผู้ใช้ ChatGPT Voice อาจเห็นเวลาแฝงที่รับรู้ การดริฟต์ล่าช้า และพฤติกรรมการสลับโค้ดที่แตกต่างจากตัวเลขระดับ API ที่รายงาน เมื่อส่วนนี้อ้างถึงพฤติกรรมเฉพาะ (ดริฟต์ ความเงียบการสลับโค้ด) ให้ถือเป็นพื้นประสบการณ์นักพัฒนาในจุดปลาย Realtime API ไม่ใช่เพดานผู้บริโภค ChatGPT-Voice ตัวเลขไปป์ไลน์ DIY Whisper + GPT-4o-mini เป็นระดับ API เช่นกัน — สะท้อนสิ่งที่นักพัฒนาประสบหลังจากประกอบไปป์ไลน์พื้นฐานแบบไร้เดียงสา ไม่ใช่ระบบการผลิตที่ปรับแต่งด้วยมือ

การทำซ้ำได้ ทุกตัวเลขในส่วนนี้ทำซ้ำได้จากคลิปเสียงโดเมนสาธารณะ VOA สามคลิป 120 วินาทีเดียวกัน จุดปลาย Realtime API เดียวกัน และ Python harness เดียวกันที่ใช้สำหรับเบนช์มาร์กสี่ระบบเดิม เสียง (`audio.zip`) JSON ต่อการพูดดิบ (`openai-realtime-results.json`) และวิธีการเผยแพร่ที่ livelingo.io/research/benchmark-2026

gpt-realtime-translate — พฤติกรรมที่วัดได้

เสียงแรกเร็วที่สุดของทุกระบบที่ทดสอบ มัธยฐาน 711 มิลลิวินาทีจากการเริ่มพูดถึงเสียงแปลแรกในทุก 120 เซสชันที่ประเมิน (p10–p90: 485–1,012 มิลลิวินาที) เพื่อเป็นบริบท Gemini 3.5 Live Translate วัดได้ประมาณ 2.9 วินาทีในเมตริกเดียวกัน — `gpt-realtime-translate` เร็วกว่าประมาณสี่เท่าในการออกเอาต์พุตแรก ความเร็วเป็นจุดแข็งแท้จริงของโมเดลนี้

ความเที่ยงตรงความเข้าใจรวม: 4.53 / 5 ให้คะแนนโดยผู้พิพากษา LLM ชั้นนำสองคนแยกกัน (GPT-4o, Gemini 2.5 Flash) โดยใช้หลักเกณฑ์และพรอมต์ผู้พิพากษาเดียวกันกับเบนช์มาร์กสี่ระบบเดิม ใน 120 การพูดและสี่คู่ภาษา (en→es, en→zh-CN, en→ja, en→de) นี่เป็นคะแนนต่ำสุดของหกระบบที่วัด เปรียบเทียบแบบตัวต่อตัวกับ LiveLingo ในระดับเซลล์: ชนะ 4 เสมอ 80 แพ้ 36 คลาสข้อผิดพลาดที่เกิดซ้ำ: วลีที่ไม่เกี่ยวข้องเพิ่มเติมที่จุดเริ่มต้นการพูด การกลับความหมาย (เช่น "I was stressed about work" แสดงเป็นความปรารถนาที่จะเครียด) และชื่อเฉพาะถูกแทนที่ด้วยคำนามทั่วไป

การเปรียบเทียบหกระบบในเบนช์มาร์ก LiveLingo 2026 (120 การพูด สี่คู่ภาษา รวม 2 ผู้พิพากษา) ข้อมูลดิบ: livelingo.io/research/benchmark-2026

ระบบความเข้าใจ (0–5)เวลาแฝงเสียงแรก / TTFพื้นผิวเอาต์พุต
LiveLingo4.961,518 มิลลิวินาที (ทรานสคริปต์ยืนยัน)ข้อความ + เสียงแบบสตรีมมิ่ง
Gemini 3.5 Live Translate4.93~3,100 มิลลิวินาที (TTF)เสียง (ข้อความเสริม)
Google Cloud STT v2 + Translate v34.77~26,736 มิลลิวินาที (ทรานสคริปต์สุดท้าย)ทรานสคริปต์
Azure Speech Translation4.65~4,755 มิลลิวินาที (ทรานสคริปต์สุดท้าย)ทรานสคริปต์
Whisper + GPT-4o-mini (DIY)4.632,720 มิลลิวินาที (ทรานสคริปต์สุดท้าย)ทรานสคริปต์
**OpenAI gpt-realtime-translate****4.53****~3,800 มิลลิวินาที (TTF)****เสียง + ทรานสคริปต์**

การดริฟต์ล่าช้าในเสียงต่อเนื่อง ความเร็วในการออกเอาต์พุตแรกยอดเยี่ยม แต่ในเสียงยาวเสียงที่แปลแล้วตกหลังผู้พูดอย่างต่อเนื่องเมื่อคงค้างที่ไม่ได้แปลสะสม วัดจากจุดสิ้นสุดการพูดต้นทางแต่ละครั้งถึงการมาถึงของเสียงที่แปลสำหรับการพูดนั้น: มัธยฐาน 3.8 วินาที ดริฟต์ไกลถึง 20.3 วินาทีหลังในคลิป VOA pt→en ที่หนาแน่น นี่คือการแลกเปลี่ยนที่สถาปัตยกรรมเสียงเป็นเสียงสร้าง — เอาต์พุตเสียงถูกจำกัดตามธรรมชาติด้วยอัตราการพูดของเสียงที่สังเคราะห์ ดังนั้นโมเดลไม่สามารถ "ตามทัน" เร็วกว่าจังหวะมนุษย์

ความล้มเหลวของเสียงสลับโค้ด ตามเอกสารนักพัฒนาของ OpenAI โมเดลอาจข้ามเสียงที่อยู่ในภาษาเอาต์พุตแล้ว ในคลิป VOA zh→en ในเบนช์มาร์ก LiveLingo สิ่งนี้ปรากฏเป็นความเงียบที่เครื่องหมาย 86 วินาที เมื่อต้นทางสลับเป็นเสียงภาษาอังกฤษ — โมเดลเงียบและไม่ส่งเนื้อหาภาษาอังกฤษผ่านไปยังเอาต์พุตที่แปล Gemini 3.5 Live Translate แสดงช่องว่างเดียวกันในคลิปเดียวกัน นี่เป็นปัญหาคลาสสำหรับโมเดลแปลภาษาเสียงเป็นเสียงเฉพาะทาง (ดูคำเตือนด้านล่าง) ไปป์ไลน์ที่แสดงทรานสคริปต์ข้อความแบบสตรีมมิ่งสามารถส่งเนื้อหาสลับโค้ดผ่านไปยังทรานสคริปต์ที่แสดงแทนการทิ้ง

พื้นผิวเอาต์พุต เสียงที่แปลแล้วพร้อมทรานสคริปต์ข้อความของทั้งต้นทางและเอาต์พุต — ใกล้เคียงกับพื้นผิวผลิตภัณฑ์ทรานสคริปต์เป็นหลักมากกว่า API เฉพาะเสียงของ Gemini 3.5 Live Translate ไม่มีการระบุผู้พูด ไม่มีการเลือกเสียง เอาต์พุตที่พูดไม่สามารถแก้ไขได้หลังจากออกมาแล้ว

เสียงเป็นเสียงเป็นคลาสที่มีข้อจำกัดร่วมกัน พฤติกรรมในส่วนนี้ไม่ใช่เฉพาะของ `gpt-realtime-translate` Gemini 3.5 Live Translate ของ Google และโมเดลแปลภาษาเสียงเป็นเสียงอื่นๆ ในปัจจุบัน สืบทอดการแลกเปลี่ยนคลาสเดียวกัน: (1) การดริฟต์ล่าช้าจังหวะเอาต์พุต ในเสียงต่อเนื่อง เพราะเสียงที่แปลถูกจำกัดด้วยอัตราการพูดและไม่สามารถตามทันเร็วกว่าจังหวะมนุษย์; (2) ความเงียบสลับโค้ด เพราะโมเดลถูกกำหนดให้ข้ามเสียงที่อยู่ในภาษาเอาต์พุตแล้ว; (3) ไม่มีการระบุผู้พูดในบรรทัด ในเสียงที่สังเคราะห์; (4) การยืนยันกลางการพูดที่ไม่สามารถกลับคืนได้ เพราะเสียงที่พูดไม่สามารถถอนกลับได้เหมือนข้อความที่แสดง ระบบที่แสดงทรานสคริปต์ข้อความแบบสตรีมมิ่ง — รวมถึงเส้นทาง DIY Whisper + GPT-4o-mini ของ OpenAI และผลิตภัณฑ์แปลภาษาทรานสคริปต์แบบสตรีมมิ่งเช่น LiveLingo — หลีกเลี่ยง (2), (3) และ (4) ด้วยต้นทุนของค่าใช้จ่ายเวลาแฝงโมเดลสองตัวหรือรูปแบบเอาต์พุตที่แตกต่าง ถือเป็นข้อมูลเชิงลึกหมวดหมู่ ไม่ใช่การวิจารณ์โมเดลหนึ่ง

Whisper + GPT-4o-mini DIY pipeline — พฤติกรรมที่วัดได้

ในคลิป VOA สาม 120 วินาทีเดียวกัน ไปป์ไลน์พื้นฐานแบบไร้เดียงสา Whisper-large + GPT-4o-mini วัดได้เวลาแฝงทรานสคริปต์สุดท้ายมัธยฐาน 2,720 มิลลิวินาที (95% CI 1,880–3,396, n=28) และปล่อย ≈22 การลบที่ปรับมาตรฐานต่อคลิป 120 วินาที (การแก้ไขโทเค็นในชิ้นบางส่วน) ความเที่ยงตรงความเข้าใจรวมคือ 4.63 / 5 ในสี่คู่ภาษาเดียวกัน

น่าสังเกต: ไปป์ไลน์ DIY ได้คะแนนความเข้าใจสูงกว่าโมเดล `gpt-realtime-translate` เฉพาะทาง (4.63 เทียบกับ 4.53) โมเดลเฉพาะทางเร็วกว่าในการออกเอาต์พุตแรกและง่ายกว่าในการรวม แต่ในเบนช์มาร์กนี้ไปป์ไลน์โมเดลสองตัวเก่ากว่าอ่านความหมายต้นทางได้แม่นยำกว่าเล็กน้อย ความแตกต่างอยู่ในช่วง ~0.10 ในระดับ 5 คะแนนและสะท้อนลำดับความสำคัญการออกแบบที่แตกต่าง — ความเร็วและความเรียบง่ายในการดำเนินงานสำหรับโมเดลเฉพาะทาง ความแม่นยำทรานสคริปต์และการควบคุมพรอมต์สำหรับไปป์ไลน์

6. 6. สิ่งที่เอกสารของ OpenAI เองเปิดเผย

คำแถลงที่ดึงมาโดยตรงจากการประกาศวันที่ 7 พฤษภาคม 2026 และเอกสารนักพัฒนาของ OpenAI:

  • คลังข้อมูลการฝึกฝน "ได้รับการฝึกฝนจากเสียงล่ามมืออาชีพหลายพันชั่วโมง ซึ่งช่วยให้ทำงานเฉพาะการแปลและรอบริบทเพียงพอก่อนสร้างเสียง" (แหล่งที่มา: การประกาศของ OpenAI)
  • ความครอบคลุมภาษา ภาษาต้นทาง 70+ ภาษาเป็นภาษาเอาต์พุต 13 ภาษา (แหล่งที่มา: คู่มือ OpenAI)
  • จุดแข็งภาษาอินดิก "Word Error Rates ต่ำกว่า 12.5% เมื่อเทียบกับโมเดลอื่นใดที่ทดสอบ" ในภาษาฮินดี ทมิฬ และเตลูกูในการประเมินของ OpenAI เอง (แหล่งที่มา: การประกาศของ OpenAI)
  • พฤติกรรมการสลับโค้ด เอกสารของ OpenAI ระบุว่าโมเดลอาจข้ามเสียงที่อยู่ในภาษาเอาต์พุตแล้ว — ตัวเลือกการออกแบบที่สร้างความเงียบในเสียงสลับโค้ด
  • ข้อจำกัดโหมด ในโหมดแปลภาษา ไม่รองรับการป้อนข้อความและการใช้เครื่องมือพร้อมคำสั่งระบบถูกปิดใช้งาน การเรียกโหมดแปลภาษาเป็นพื้นผิวที่จำกัดเมื่อเทียบกับ Realtime API ทั่วไป
  • รูปแบบเอาต์พุต (นักพัฒนา) เสียงถูกส่งและรับในรูปแบบ PCM ดิบด้วยการสตรีมมิ่งแบบแบ่งส่วน อ้างอิงคู่มือ Realtime API สำหรับรูปแบบที่แน่นอนและคำแนะนำขนาดส่วน
  • ราคา $0.034 ต่อนาทีของเสียงต้นทางสำหรับ `gpt-realtime-translate` $0.006 ต่อนาทีเสียงสำหรับ Whisper GPT-4o-mini ต่อโทเค็น ChatGPT Plus ประมาณ $20/เดือนและเป็นระดับเสียเงินขั้นต่ำสำหรับการเข้าถึงการแปลแบบเรียลไทม์ของ ChatGPT Voice (ราคา OpenAI API และ ราคาผู้บริโภค ChatGPT)
  • ผู้ใช้เปิดตัวที่ระบุ Deutsche Telekom (การสนับสนุนลูกค้าหลายภาษา) และ Vimeo (การแปลแบบเรียลไทม์ของวิดีโอการศึกษาผลิตภัณฑ์) (แหล่งที่มา: การประกาศของ OpenAI)

7. 7. เมื่อไหร่ควรเลือกพื้นผิวไหน — และเมื่อไหร่เครื่องมืออื่นเหมาะสมกว่า

เลือกการแปลแบบเรียลไทม์ของ ChatGPT Voice หาก

  • คุณจ่ายเงินสำหรับ ChatGPT Plus (หรือ Teams, Enterprise, Edu) อยู่แล้วและไม่ต้องการเพิ่มการสมัครสมาชิกอื่น
  • กรณีการใช้งานของคุณเป็นการสนทนาตัวต่อตัวหรือในบุคคลกลุ่มเล็กมากกว่าการประชุมหลายฝ่ายที่ต้องการทรานสคริปต์ที่แสดง
  • คุณยอมรับอินเทอร์เฟซโหมดสนทนามากกว่า UI แปลภาษาเฉพาะทางที่มีตัวเลือกภาษาต้นทาง/เป้าหมายและทรานสคริปต์ที่บันทึก
  • คุณสบายใจกับโมเดลที่จัดการกิจกรรมเสียงและการสลับเทิร์นภายใน โดยไม่มีการควบคุมโดยตรงของผู้ใช้

เลือก gpt-realtime-translate (Realtime API) หาก

  • คุณกำลังสร้างแอปพลิเคชันนักพัฒนาที่เวลาถึงเสียงแปลแรกสำคัญกว่าขอบความเข้าใจ
  • รายการภาษาเอาต์พุตของคุณอยู่ในขอบเขต 13 ภาษา
  • คุณให้บริการผู้ชมภาษาอินดิก (ฮินดี ทมิฬ เตลูกู) ที่การประเมินของ OpenAI เองรายงานการลด WER 12.5% เหนือทางเลือกอื่น
  • คุณสามารถสร้างชั้นหันหน้าผู้บริโภค (UI โทรศัพท์ การจัดการข้อผิดพลาด การสำรองสลับโค้ด) บน API ของ OpenAI
  • คุณยอมรับการแลกเปลี่ยนความเร็ว-เทียบกับ-ความเข้าใจ (ความเข้าใจ 4.53/5 เทียบกับ 4.63 สำหรับไปป์ไลน์ DIY ในเบนช์มาร์กเดียวกัน) เพื่อแลกกับการเรียก API หนึ่งครั้งแทนสองครั้ง

เลือก Whisper + GPT-4o-mini DIY หาก

  • คุณต้องการภาษาเอาต์พุตใดก็ได้นอกเหนือจากเพดาน 13 ภาษา
  • คุณต้องการการควบคุมพรอมต์และศัพท์เฉพาะอย่างเต็มที่สำหรับศัพท์เฉพาะหรือข้อจำกัดสไตล์
  • คุณมีความสามารถทางวิศวกรรมสำหรับ VAD การตรวจจับจุดสิ้นสุด การกรองภาพหลอน UI แบบสตรีมมิ่ง และโทรศัพท์
  • คุณต้องการต้นทุนเสียงต่อนาทีที่ต่ำกว่า ($0.006 Whisper) และสามารถยอมรับราคา GPT-4o-mini ต่อโทเค็น
  • คุณต้องการรวมการแปลกับพื้นผิวความสามารถ Realtime API ที่กว้างขึ้น (การใช้เครื่องมือ คำสั่งระบบ) ที่โหมดแปลภาษาเฉพาะทางไม่เปิดเผย

ที่ไหนเครื่องมืออื่นอาจเหมาะสมกว่า

พื้นผิวสามแบบของ OpenAI ครอบคลุมกรณีการใช้งานการแปลแบบเรียลไทม์ส่วนใหญ่ แต่แต่ละอันอยู่ในรูปร่างเฉพาะ: ChatGPT Voice เป็นแชทบอทที่มีการแปล `gpt-realtime-translate` เป็น API นักพัฒนา และ Whisper + GPT-4o-mini เป็นชุดของส่วนประกอบ พื้นผิวแอปแปลภาษาเฉพาะทาง — พร้อมเอาต์พุตข้อความ + เสียงแบบสตรีมมิ่งที่คุณสามารถอ่านขณะฟัง การระบุต่อผู้พูด ทรานสคริปต์ที่แสดงแบบยืนยันประตูที่ไม่เคยถอนกลับ การโทรออกที่แปลแล้ว และระดับฟรีนอกประตูการสมัครสมาชิก — เป็นหมวดหมู่ผลิตภัณฑ์ที่แตกต่าง LiveLingo (เผยแพร่คู่มือนี้) อยู่ที่นั่น การแลกเปลี่ยนอย่างซื่อสัตย์: เอาต์พุตเสียงของ LiveLingo ทำงานผ่านเครื่องมือแปลงข้อความเป็นเสียงเริ่มต้นของแพลตฟอร์มโฮสต์ ดังนั้นเสียงที่พูดจึงแสดงออกน้อยกว่าของ `gpt-realtime-translate` อินเทอร์เฟซสนทนาของ ChatGPT Voice สามารถรู้สึกเป็นธรรมชาติกว่า UI แปลภาษาเฉพาะทางสำหรับการแลกเปลี่ยนแบบสบายๆ ข้อมูลจำเพาะเคียงข้างกัน: /th/compare/chatgpt-translation ตัวเลขเบนช์มาร์ก: /th/research/benchmark-2026

8. 8. คำถามที่พบบ่อย

OpenAI เสนอการแปลภาษาแบบเรียลไทม์อะไรในปี 2026?

OpenAI เปิดตัวการแปลภาษาแบบเรียลไทม์ผ่าน 3 พื้นผิวตั้งแต่กลางปี 2026 ChatGPT Voice รวมโหมดแปลแบบเรียลไทม์สำหรับผู้ใช้ที่จ่ายเงิน (Plus, Teams, Enterprise, Edu) `gpt-realtime-translate` เป็นโมเดลแปลเสียงเป็นเสียงแบบสตรีมมิ่งเฉพาะทางใน Realtime API เปิดตัววันที่ 7 พฤษภาคม 2026 ราคา $0.034 ต่อนาทีของเสียงต้นทางด้วยภาษาต้นทาง 70+ ภาษาและภาษาเอาต์พุต 13 ภาษา ไปป์ไลน์ DIY ของ Whisper-large (เสียงเป็นข้อความ) และ GPT-4o-mini (การแปล) ยังคงใช้ได้สำหรับนักพัฒนาที่ต้องการคู่ภาษาใดก็ได้และการควบคุมสแต็กอย่างเต็มที่

การแปลแบบเรียลไทม์ของ ChatGPT Voice ทำงานอย่างไร?

แตะไอคอน Voice ในตัวเขียนข้อความของแอป ChatGPT จากนั้นขอให้ผู้ช่วยแปล — เช่น "แปลระหว่างภาษาอังกฤษและญี่ปุ่น" โมเดลจะแปลต่อเนื่องข้ามเทิร์นจนกว่าจะบอกให้หยุดหรือเปลี่ยนภาษา ใช้ได้กับผู้ใช้ ChatGPT ที่จ่ายเงิน (Plus ~$20/เดือน, Teams, Enterprise หรือ Edu) เป็นพื้นผิวเสียงสนทนา ไม่ใช่ UI แปลภาษาเฉพาะทางที่มีตัวเลือกภาษาต้นทาง/เป้าหมาย คู่ทรานสคริปต์ต้นทางและแปล หรือการโทรออก

gpt-realtime-translate คืออะไร?

โมเดลแปลเสียงเป็นเสียงแบบสตรีมมิ่งเฉพาะทางของ OpenAI ใน Realtime API เปิดตัววันที่ 7 พฤษภาคม 2026 ได้รับการฝึกฝนจากเสียงล่ามมืออาชีพหลายพันชั่วโมง ภาษาต้นทาง 70+ ภาษา → ภาษาเอาต์พุต 13 ภาษา ราคา $0.034 ต่อนาทีของเสียงต้นทาง ส่งคืนเสียงที่แปลแล้วพร้อมทรานสคริปต์ข้อความของทั้งต้นทางและเอาต์พุต ผู้ใช้องค์กรที่ระบุในการเปิดตัวรวมถึง Deutsche Telekom และ Vimeo

คุณยังสามารถสร้างแปลภาษาแบบเรียลไทม์ด้วย Whisper และ GPT-4o-mini ได้หรือไม่?

ได้ ไปป์ไลน์ DIY (Whisper-large $0.006/นาทีเสียง, 99 ภาษาต้นทาง; GPT-4o-mini ต่อโทเค็น) ยังคงเป็นเส้นทาง OpenAI ที่ยืดหยุ่นที่สุด — รองรับคู่ภาษาใดก็ได้และให้การควบคุมอย่างเต็มที่เหนือการแบ่งส่วน การสร้างพรอมต์ และรูปแบบเอาต์พุต การแลกเปลี่ยนคือต้นทุนวิศวกรรม: API ของ Whisper ไม่แบ่งเสียงต่อเนื่องเป็นขอบเขตการพูด ดังนั้นนักพัฒนาต้องสร้าง VAD ตรรกะจุดสิ้นสุด การกรองภาพหลอน UI แบบสตรีมมิ่ง และโทรศัพท์

เวลาแฝงและความเข้าใจที่วัดได้ของ gpt-realtime-translate เป็นอย่างไร?

ในภาคผนวกเบนช์มาร์ก LiveLingo Research (10 มิถุนายน 2026) `gpt-realtime-translate` มีเวลาแฝงเสียงแรกเร็วที่สุดของทุกระบบที่ทดสอบ — มัธยฐาน 711 มิลลิวินาทีจากการเริ่มพูดถึงเสียงแปลแรก ความเที่ยงตรงความเข้าใจรวมคือ 4.53 / 5 ต่ำสุดของหกระบบที่วัด ในเสียงต่อเนื่อง เสียงที่แปลตกหลังผู้พูด — มัธยฐาน 3.8 วินาที ดริฟต์ถึง 20.3 วินาทีในเสียงหนาแน่น ข้อผิดพลาดที่เกิดซ้ำ: การแทรกที่ไม่เกี่ยวข้อง การกลับความหมาย การแทนที่ชื่อเฉพาะ แหล่งที่มา: livelingo.io/research/benchmark-2026

ตัวเลขเหล่านี้สะท้อนประสบการณ์ผู้ใช้ ChatGPT Voice หรือไม่?

ไม่ ตัวเลขที่วัดได้เป็นสำหรับการเรียก Realtime API ของ `gpt-realtime-translate` ดิบ ChatGPT Voice สร้างบนโครงสร้างพื้นฐาน Realtime เดียวกัน แต่แอปผู้บริโภคเพิ่ม VAD ฝั่งไคลเอนต์ สถานะการสนทนา การเรนเดอร์ UI และอาจใช้การปรับให้เรียบฝั่งเซิร์ฟเวอร์ที่ไม่ได้วัดแยก ผู้ใช้ ChatGPT Voice อาจเห็นเวลาแฝงที่รับรู้ การดริฟต์ล่าช้า และพฤติกรรมการสลับโค้ดที่แตกต่างจากตัวเลขระดับ API ที่รายงาน ถือเบนช์มาร์กที่เผยแพร่เป็นพื้นประสบการณ์นักพัฒนาในจุดปลาย Realtime API ไม่ใช่เพดานผู้ใช้ ChatGPT-Voice

OpenAI จัดการการสลับโค้ดอย่างไร?

ตามเอกสารนักพัฒนาของ OpenAI `gpt-realtime-translate` อาจข้ามเสียงที่อยู่ในภาษาเอาต์พุตแล้ว ในเบนช์มาร์ก LiveLingo สิ่งนี้ปรากฏเป็นความเงียบในคลิป VOA zh→en ที่เครื่องหมาย 86 วินาทีเมื่อต้นทางสลับเป็นภาษาอังกฤษ Gemini 3.5 Live Translate แสดงช่องว่างเดียวกันในคลิปเดียวกัน ระบบทรานสคริปต์ข้อความแบบสตรีมมิ่งที่ส่งเสียงภาษาเป้าหมายผ่านไปยังทรานสคริปต์ที่แสดงไม่มีช่องว่างนี้

เมื่อไหร่ควรเลือกพื้นผิว OpenAI ไหน?

การแปลแบบเรียลไทม์ของ ChatGPT Voice หากคุณจ่ายเงินสำหรับ ChatGPT Plus หรือสูงกว่าอยู่แล้วและยอมรับอินเทอร์เฟซสนทนา `gpt-realtime-translate` หากคุณสร้างแอปพลิเคชันนักพัฒนาที่ความเร็วถึงเสียงแรกสำคัญกว่าความเสถียรข้อความที่แสดง รายการภาษาเอาต์พุตของคุณอยู่ใน 13 ภาษา และคุณสามารถสร้างพื้นผิวผู้บริโภคด้านบน Whisper + GPT-4o-mini DIY หากคุณต้องการภาษาเอาต์พุตใดก็ได้ การควบคุมพรอมต์และศัพท์เฉพาะอย่างเต็มที่ ต้นทุนต่อนาทีที่ต่ำกว่า และความสามารถทางวิศวกรรมในการสร้าง VAD การตรวจจับจุดสิ้นสุด การกรองภาพหลอน UI แบบสตรีมมิ่ง และโทรศัพท์

9. 9. แหล่งที่มา

  • OpenAI. Advancing voice intelligence with new models in the API. บล็อก OpenAI, 7 พฤษภาคม 2026. openai.com
  • OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. คู่มือ OpenAI. developers.openai.com
  • OpenAI Developers. Realtime and audio (คู่มือ Realtime API). developers.openai.com
  • OpenAI. ChatGPT Voice mode (หน้าฟีเจอร์ผู้บริโภค). chatgpt.com
  • OpenAI. API pricing (อัตราต่อโมเดล). openai.com/api/pricing
  • OpenAI. ChatGPT pricing (ระดับผู้บริโภค). openai.com/chatgpt/pricing
  • OpenAI. Speech-to-text guide (เอกสาร Whisper). platform.openai.com
  • Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time, 7 พฤษภาคม 2026. tomsguide.com
  • 9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak, 7 พฤษภาคม 2026. 9to5mac.com
  • Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT. slator.com
  • openai/whisper. GitHub Discussions — hallucinations on short clips. github.com
  • LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — OpenAI gpt-realtime-translate addendum, 10 มิถุนายน 2026. livelingo.io/research/benchmark-2026
  • LiveLingo. LiveLingo vs ChatGPT: Real-Time Voice Translation Compared (2026). livelingo.io/compare/chatgpt-translation

ราคา ความพร้อมใช้งาน ผู้ใช้เปิดตัว และรายละเอียดการเข้าถึงระดับผู้บริโภคได้รับการตรวจสอบกับแหล่งที่มาหลักข้างต้นเมื่อวันที่ 10 มิถุนายน 2026 OpenAI อาจเปลี่ยนระดับ ราคา ความครอบคลุมภาษา และพฤติกรรมโมเดล ปรึกษาแหล่งที่มาที่เชื่อมโยงสำหรับสถานะปัจจุบันก่อนพึ่งพาตัวเลขเฉพาะใดๆ

พร้อมทำลายกำแพงภาษาแล้วหรือยัง?

ลอง LiveLingo ฟรี — แปลเสียงแบบเรียลไทม์ 5 นาทีทุกวัน ไม่ต้องใส่บัตรเครดิต อัปเกรดเป็น Pro สำหรับการโทรแปลภาษา บันทึกการประชุมด้วย AI และใช้งาน 300 นาทีต่อเดือน

ลอง LiveLingo ฟรี
OpenAI Live Translation 2026: ChatGPT Voice, API และ Whisper เปรียบเทียบ | LiveLingo