
1. 1. Gemini 3.5 Live Translate คืออะไร
Gemini 3.5 Live Translate เป็นโมเดลแปลแบบเสียงต่อเสียงแบบสตรีมมิ่งที่ Google ประกาศเมื่อวันที่ 9 มิถุนายน 2026 มีลักษณะเด่นสองประการที่แตกต่างจากผลิตภัณฑ์แปลภาษารุ่นก่อน
ประการแรก เป็นระบบเสียงต่อเสียงแทนที่จะเป็นกระบวนการแบบเก่าที่ผ่านขั้นตอน เสียงเป็นข้อความ-แปล-ข้อความเป็นเสียง โมเดลรับเสียงต้นทางแบบสตรีมเป็นชิ้นๆ ละ 100 มิลลิวินาที และสร้างเสียงที่แปลแล้วเป็นผลลัพธ์ มีบันทึกข้อความให้ใช้ แต่เป็นเพียงส่วนเสริมของเสียงที่ออกมา — ไม่มีโหมดข้อความแบบสตรีม และไม่มีการระบุผู้พูดในเสียงที่แปลแล้ว
ประการที่สอง เสียงที่สร้างขึ้นถูกออกแบบให้เก็บรักษาลีลาการพูดของผู้พูด การประกาศของ Google อธิบายผลลัพธ์ที่เก็บน้ำเสียง จังหวะ และระดับเสียงของผู้พูดไว้ ในทางปฏิบัติ สิ่งนี้สร้างเสียงที่แปลแล้วซึ่งฟังดูเป็นธรรมชาติมากกว่าเครื่องมือแปลข้อความเป็นเสียงทั่วไปที่อ่านคำแปลออกเสียง — ข้อได้เปรียบที่แท้จริงเหนือระบบแปลเสียงที่ผลลัพธ์เสียงผ่านชั้น TTS มาตรฐาน
โมเดลสร้างจาก Gemini 3 Pro ตาม Gemini 3.5 Audio model card ที่เผยแพร่โดย Google DeepMind รับอินพุตเสียงที่มีบริบทสูงสุด 128K โทเค็น และสร้างผลลัพธ์เสียง + ข้อความสูงสุด 64K โทเค็น ตรวจจับ 70+ ภาษาอัตโนมัติ รวมถึงการเปลี่ยนภาษาอย่างรวดเร็วระหว่างผู้พูด แม้ว่าการตรวจจับนั้นจะมีจุดอ่อนที่บันทึกไว้ (ครอบคลุมในส่วนที่ 4)
การเปิดตัวครอบคลุมสามพื้นผิวผลิตภัณฑ์พร้อมกัน: การเข้าถึงสำหรับนักพัฒนาผ่าน Gemini Live API และ Google AI Studio (พรีวิวสาธารณะตั้งแต่ 9 มิถุนายน 2026); การเข้าถึงสำหรับผู้บริโภคผ่านแอป Google Translate บน Android และ iOS เปิดให้ใช้ทั่วโลกตั้งแต่วันนั้น พร้อม "โหมดฟัง" ใหม่บน Android; และการเข้าถึงสำหรับองค์กรผ่าน Google Meet ในพรีวิวส่วนตัวสำหรับลูกค้า Google Workspace ที่เลือกไว้ ซึ่งขยายความครอบคลุมการแปลของ Meet จาก 5 ภาษาเป็น 70+ ภาษา และรองรับการผสมผสานต้นทาง/เป้าหมายกว่า 2,000 แบบภายในการประชุมเดียว
2. 2. วิธีการทำงาน: สถาปัตยกรรมเสียงต่อเสียงและการเก็บรักษาลีลาการพูด
ตัวเลือกสถาปัตยกรรมสามประการที่ทำให้ Gemini 3.5 Live Translate แตกต่างจากระบบแปลแบบสตรีมมิ่งรุ่นก่อน
เสียงต่อเสียง ไม่ใช่เสียงเป็นข้อความเป็นเสียง
กระบวนการแบบดั้งเดิมส่งเสียงผ่านโมเดลแปลงเสียงเป็นข้อความแบบสตรีม ป้อนบันทึกให้กับโมเดลแปลภาษา จากนั้นสังเคราะห์คำแปลผ่านโมเดลแปลข้อความเป็นเสียงแยกต่างหาก แต่ละขั้นตอนเพิ่มความล่าช้าและสะสมข้อผิดพลาด Gemini 3.5 Live Translate รวมขั้นตอนเหล่านี้เป็นโมเดลเสียงเดียว ข้อแลกเปลี่ยน: ผลลัพธ์เป็นเสียงถาวร ไม่ใช่ข้อความที่แก้ไขได้ — เมื่อพูดคำใดออกไปแล้ว ไม่สามารถแก้ไขกลางประโยคได้
สตรีมต่อเนื่อง ไม่ใช่แบบผลัดกันพูด
การประกาศของ Google กำหนดกรอบโมเดลเป็นโมเดลที่ "สร้างสมดุลระหว่างการรอบริบทเพื่อปรับปรุงคุณภาพและการแปลทันทีเพื่อให้ตามทันผู้พูด" ผลิตภัณฑ์สำหรับผู้บริโภครุ่นก่อนเช่น โหมดสนทนาเดิมของ Google Translate เป็นแบบผลัดกัน: แตะ พูด รอให้ระบบสรุปและส่งคำแปล จากนั้นให้อีกฝ่ายแตะ Gemini 3.5 Live Translate ส่งเสียงที่แปลแล้วอย่างต่อเนื่องขณะที่ผู้พูดต้นทางยังพูดอยู่ โดย Google อธิบายความล่าช้า "ไม่กี่วินาที"
การถ่ายทอดลีลาการพูด
โมเดลถูกออกแบบให้นำลักษณะเสียงของผู้พูดต้นทาง — น้ำเสียง จังหวะ การเน้น ระดับเสียง — มาใส่ในเสียงที่แปลแล้ว นี่คือเหตุผลทางเทคนิคหลักที่ผลลัพธ์ฟังดูเป็นธรรมชาติแทนที่จะเป็นหุ่นยนต์ นี่ยังเป็นต้นเหตุของข้อจำกัดความสอดคล้องของเสียงที่โมเดลการ์ดของ Google เปิดเผย (ส่วนที่ 4)
ในพื้นผิวนักพัฒนา แต่ละเซสชันใช้เสียง PCM 16-bit ดิบที่ 16 kHz โมโนเป็นอินพุต และสร้างเสียง PCM 24 kHz โมโนเป็นผลลัพธ์ ส่งเป็นชิ้นๆ ละ 100 มิลลิวินาที เสียงที่สร้างทั้งหมดมีลายน้ำ SynthID ของ Google — ลายเซ็นที่มองไม่เห็นซึ่งถักทอเข้าไปในรูปคลื่นที่ช่วยให้ระบบปลายทางระบุเสียงว่าเป็นเสียงที่เครื่องสร้างขึ้น

3. 3. จุดแข็งของ Gemini 3.5 Live Translate
จุดแข็งของผลิตภัณฑ์ห้าประการที่เห็นได้ทันทีเมื่อเปรียบเทียบ Gemini 3.5 Live Translate กับคู่แข่ง
เสียงที่แปลแล้วฟังดูเป็นธรรมชาติ เสียงที่เก็บรักษาลีลาการพูดเป็นข้อได้เปรียบที่ชัดเจนที่สุดเหนือระบบแปลเสียงที่ผลลัพธ์เสียงผ่านเครื่องมือ TTS ทั่วไป หากคุณเคยใช้แอปแปลเสียงที่เสียงแปลแล้วฟังดูเหมือนผู้บรรยายเรียบๆ อ่านคำต่อคำ ความแตกต่างจะเห็นได้ทันที Gemini 3.5 Live Translate ดีกว่าอย่างเห็นได้ชัด และความแตกต่างจะได้ยินตั้งแต่ประโยคแรก
ความเรียบง่ายของเสียงต่อเสียง การสร้างแอปพลิเคชันแปลเสียงแบบดั้งเดิมหมายถึงการเชื่อมโมเดล STT แบบสตรีม (Whisper-large, Google Cloud Speech-to-Text, Azure Speech) โมเดลแปล และเครื่องมือ TTS — และจัดการความหมายการส่งบางส่วนของแต่ละส่วน Gemini 3.5 Live Translate แทนที่ห่วงโซ่นั้นด้วยการเรียก API เดียว ทำให้โค้ดแอปพลิเคชันและพื้นผิวความล้มเหลวง่ายขึ้น
การตรวจจับภาษาอัตโนมัติในระดับใหญ่ 70+ ภาษาตรวจจับอัตโนมัติ ไม่ต้องให้ผู้ใช้ตั้งคู่ภาษาล่วงหน้า การวางตำแหน่งของ Google เน้นกรณีการใช้งานเช่นการประชุมหลายฝ่ายที่ผู้พูดเปลี่ยนภาษากลางการสนทนา
การกระจาย สร้างเข้าไปในแอป Google Translate สำหรับผู้บริโภคและ Google Meet โดยตรง สำหรับผู้ใช้ปลายทาง ต้นทุนการติดตั้งและค้นหาเกือบเป็นศูนย์ — พวกเขามีแอปอยู่แล้ว สำหรับลูกค้า Meet การแปลมาถึงเป็นสวิตช์คุณสมบัติภายในเวิร์กโฟลว์ที่ใช้อยู่แล้ว
ผลลัพธ์ที่มีลายน้ำ ลายน้ำ SynthID ทำให้เสียงที่สร้างขึ้นสามารถระบุได้ว่าเป็นเสียงที่ AI สร้างสำหรับกรณีการใช้งานการปฏิบัติตามกฎระเบียบปลายทาง ซึ่งมีประโยชน์ในอุตสาหกรรมที่มีกฎระเบียบที่ต้องติดตามเนื้อหาที่ AI สร้าง
4. 4. สิ่งที่โมเดลการ์ดของ Google เองยอมรับว่าเป็นข้อจำกัด
Gemini 3.5 Audio model card ที่เผยแพร่โดย Google DeepMind บันทึกข้อจำกัดที่ทราบเฉพาะของ Gemini 3.5 Live Translate อ้างอิงจากการ์ดโดยตรง:
การตรวจจับภาษา
"การตรวจจับภาษาอาจมีปัญหากับสำเนียงที่ไม่ใช่เจ้าของภาษา ภาษาที่คล้ายกัน หรือการเปลี่ยนภาษาอย่างรวดเร็ว" ผลกระทบในทางปฏิบัติ: หากผู้พูดมีสำเนียงหนัก หรือภาษาต้นทางใกล้เคียงกับภาษาที่เกี่ยวข้อง (โปรตุเกสกับสเปน นอร์เวย์กับสวีเดน) หรือการสนทนาเปลี่ยนภาษาอย่างรวดเร็ว ตัวตรวจจับอาจเลือกภาษาต้นทางผิดและแปลตามนั้น
ความสอดคล้องของเสียงในเซสชันหลายผู้พูด
"เสียงอาจไม่สอดคล้องกัน และเสียงอาจเปลี่ยนหลังจากหยุดนาน เปลี่ยนเพศ หรือติดอยู่กับเสียงเดียวระหว่างเซสชันหลายผู้พูดที่รวดเร็ว" นี่คือข้อจำกัดที่สำคัญที่สุดในทางปฏิบัติสำหรับกรณีการใช้งานหลายๆ กรณี ในการประชุมที่มีผู้พูดหลายคนผลัดกันพูดอย่างรวดเร็ว โมเดลอาจสร้างผลลัพธ์การแปลทั้งหมดด้วยเสียงเดียว — สูญเสียการระบุผู้พูดที่ผู้ฟังพึ่งพาเพื่อติดตามการสนทนา
การกรองเสียงรบกวน
"ออกแบบมาเพื่อกรองเสียงพื้นหลัง แต่เสียงพื้นหลังทั้งหมดอาจไม่ถูกละเว้น" สภาพแวดล้อมในโลกจริงจะยังคงรั่วไหลผ่านในบางสภาวะ
ข้อจำกัดโหมดการแปล (API นักพัฒนา)
ตามการรายงานการเปิดตัวที่อ้างอิงเอกสารนักพัฒนาของ Google "ไม่รองรับอินพุตข้อความในโหมดการแปล" และโมเดล "ยกเลิกการใช้เครื่องมือและคำสั่งระบบในโหมดนี้" สำหรับนักพัฒนา การเรียก API การแปลเป็นพื้นผิวที่จำกัด — คุณไม่สามารถส่งข้อความ ไม่สามารถใช้ระบบเครื่องมือ Gemini ที่กว้างขึ้น และไม่สามารถแทรกพรอมต์ระบบ การแปลเข้า การแปลออก
5. 5. การวัดอิสระจาก LiveLingo 2026 Benchmark
LiveLingo Research ประเมิน Gemini 3.5 Live Translate ในวันเปิดตัว (9 มิถุนายน 2026) กับโปรโตคอลเดียวกันที่ใช้สำหรับเบนช์มาร์กเดิมของ Google Cloud STT v2 + Translation v3, Azure Speech Translation และ Whisper-large + GPT-4o-mini ภาคผนวกฉบับเต็มเผยแพร่ที่ livelingo.io/research/benchmark-2026#comprehension-gemini-live; ตัวเลขหลักอยู่ด้านล่าง
ความเที่ยงตรงในการเข้าใจรวม: 4.93 / 5 ใน 120 คำพูดและสี่คู่ภาษา (en→es, en→zh-CN, en→ja, en→de) นี่คือผลลัพธ์ที่แข็งแกร่งที่สุดในบรรดาระบบแข่งขันสี่ระบบในเบนช์มาร์ก; คะแนนที่ใกล้เคียงที่สุดคือ 4.77 (Google Cloud Translation v3)
ความล่าช้าเสียงแรก: มัธยฐาน 2,947 มิลลิวินาที จากจุดเริ่มต้นของการพูดถึงเสียงแปลแรก (p10–p90: 2,859–3,104 มิลลิวินาที) นี่คือความล่าช้าการพูดคงที่ ~3 วินาที สอดคล้องกับกรอบ "ไม่กี่วินาทีหลัง" ของ Google
ผลลัพธ์เป็นเสียงที่แปลแล้วเท่านั้น API ไม่มีโหมดข้อความแบบสตรีมและไม่มีการระบุผู้พูดแต่ละคน บันทึกข้อความมีให้เป็นส่วนเสริมของผลลัพธ์เสียง ผลลัพธ์เสียงไม่สามารถแก้ไขหลังจากส่งออกแล้ว
เสียงที่มีการสลับรหัสภาษา. ในคลิปข่าวภาษาจีนกลางที่สลับไปเป็นการสัมภาษณ์ข้างถนนภาษาอังกฤษที่ 86 วินาที เกณฑ์มาตรฐาน LiveLingo บันทึกว่าผลลัพธ์การแปลจะหยุดลงเมื่อมีการสลับภาษาในการทำงานทุกครั้ง: เสียงพูดที่อยู่ในภาษาปลายทางอยู่แล้วจะไม่ถูกแปลหรือถอดความ ทำให้เนื้อหา 34 วินาทีสุดท้าย (ประมาณ 28% ของคลิป) หายไปอย่างเงียบ ๆ สำหรับผู้ฟังโดยไม่มีข้อผิดพลาดใด ๆ เกิดขึ้น gpt-realtime-translate ของ OpenAI แสดงพฤติกรรมเดียวกันในคลิปเดียวกัน และ OpenAI ระบุว่าการข้ามเสียงพูดในภาษาปลายทางนั้นเป็นไปตามที่ตั้งใจไว้ ซึ่งเป็นข้อจำกัดเชิงโครงสร้างของนักแปลเสียงพูดเป็นเสียงพูดในปัจจุบันสำหรับเสียงที่มีการผสมภาษา
การกลับด้านข้อเท็จจริงในไวยากรณ์ที่แก้ไขช้า ในคลิปการพูดทางธุรกิจภาษาจีนกลาง ประโยคที่อธิบายการเพิ่มขายขึ้น 15% แสดงผลเป็นภาษาอังกฤษว่าเป็นเป้าหมายเพื่อเพิ่มยอดขายขึ้น 15% นี่คือคลาสข้อผิดพลาดที่การมุ่งมั่นเสียงกลางประโยคแบบไม่สามารถย้อนกลับได้สร้างขึ้นเมื่อภาษาต้นทางเลื่อนองค์ประกอบที่มีความหมาย (ขั้ว การอ้างอิงเวลา ประธาน) ไปจนถึงช่วงท้ายของประโยค
เหล่านี้เป็นการวัดอิสระ ไม่ใช่ตัวเลขของ Google เอง; วิธีการและข้อมูลดิบต่อคำพูดอยู่ในภาคผนวกที่เผยแพร่
6. 6. วิธีเข้าถึง Gemini 3.5 Live Translate
ผู้บริโภค — แอป Google Translate
อัปเดตแอป Google Translate เป็นเวอร์ชันล่าสุดบน Android หรือ iOS โหมด Live Translate กำลังเปิดให้ใช้ทั่วโลกตั้งแต่ 9 มิถุนายน 2026 — ความพร้อมใช้งานขึ้นอยู่กับตารางการเปิดตัวของสโตร์ในภูมิภาคของคุณ บน Android "โหมดฟัง" ใหม่ให้คุณได้ยินเสียงที่แปลแล้วโดยตรงผ่านหูฟังของอุปกรณ์
นักพัฒนา — Gemini Live API + Google AI Studio
โมเดลมีให้ในพรีวิวสาธารณะผ่าน Gemini Live API และผ่าน Google AI Studio ตามการรายงานการเปิดตัว ข้อจำกัดการรวมเฉพาะ: อินพุตเสียงเท่านั้น (ไม่มีอินพุตข้อความในโหมดการแปล) ไม่มีการใช้เครื่องมือหรือคำสั่งระบบ อินพุต PCM 16-bit ดิบ 16 kHz โมโนแบ่งที่ 100 มิลลิวินาที ผลลัพธ์ PCM 24 kHz อ้างอิง Google AI Studio สำหรับโควต้าและราคาปัจจุบัน
องค์กร — Google Meet
Gemini 3.5 Live Translate อยู่ในพรีวิวส่วนตัวสำหรับลูกค้า Google Workspace ที่เลือกไว้ตั้งแต่ 9 มิถุนายน 2026 เมื่อเปิดใช้งาน จะขยายความครอบคลุมการแปลของ Meet จาก 5 ภาษาเป็น 70+ ภาษา และรองรับการผสมผสานต้นทาง/เป้าหมาย 2,000+ แบบภายในการประชุมเดียว ความพร้อมใช้งานเป็นแบบค่อยเป็นค่อยไป ไม่ใช่ทั่วไป
7. 7. เมื่อไหร่ควรใช้ Gemini 3.5 — และเมื่อไหร่เครื่องมืออื่นเหมาะสมกว่า
เมื่อ Gemini 3.5 Live Translate เป็นตัวเลือกที่ถูกต้อง
- คุณต้องการเสียงที่แปลแล้ว ไม่ใช่ข้อความที่แปลแล้ว ผลลัพธ์เสียงธรรมชาติเป็นข้อได้เปรียบที่ใหญ่ที่สุดของผลิตภัณฑ์
- คุณอยู่ในแอป Google Translate หรือ Google Meet อยู่แล้ว การรวมไม่มีต้นทุนในการค้นหาและใช้งาน
- การสนทนาของคุณเป็นแบบหนึ่งต่อหนึ่ง หรือมีการผลัดกันพูดอย่างชัดเจนโดยมีการหยุดระหว่างผู้พูด ข้อจำกัดความสอดคล้องของเสียงที่โมเดลการ์ดของ Google เปิดเผยจะอ่อนแอลงในบริบทเหล่านี้
- คุณกำลังสร้างแอปพลิเคชันนักพัฒนาที่การทำให้ห่วงโซ่ STT → MT → TTS เป็น API เดียวสำคัญกว่าการควบคุมแต่ละขั้นตอนอย่างละเอียด
- คุณสามารถอยู่ได้โดยไม่มีการระบุผู้พูดในผลลัพธ์เสียง และไม่มีบันทึกข้อความแบบสตรีม
เมื่อคุณอาจต้องการเครื่องมืออื่น
- คุณต้องการข้อความแบบสตรีมควบคู่หรือแทนเสียง ข้อความแบบสตรีมคือสิ่งที่อินเทอร์เฟซการผลิตส่วนใหญ่แสดงบนหน้าจอระหว่างการแคปชันสด การแปลการประชุม และสถานการณ์การเข้าถึง ข้อความของ Gemini 3.5 Live Translate เป็นเพียงส่วนเสริม
- คุณต้องการการระบุผู้พูดแต่ละคนในผลลัพธ์ที่แปลแล้ว การเปิดเผย "อาจติดอยู่กับเสียงเดียวระหว่างเซสชันหลายผู้พูดที่รวดเร็ว" ของโมเดลการ์ดทำให้นี่เป็นความเสี่ยงจริงสำหรับการประชุม
- คุณแปลการสนทนาที่ความเสถียรสำคัญกว่าการแสดงออก ผลลัพธ์เสียงไม่สามารถแก้ไขกลางคำพูดได้ ดังนั้นในภาษาที่มีไวยากรณ์แก้ไขช้า (ขั้วภาษาจีนกลางที่ท้ายประโยค กริยาภาษาญี่ปุ่นที่ท้ายประโยค) การมุ่งมั่นก่อนกำหนดอาจกลับความหมาย ภาคผนวกเบนช์มาร์กบันทึกกรณีหนึ่งเช่นนั้น
- คุณต้องการโทรศัพท์ที่แปลแล้ว — โทรหมายเลข PSTN โดยมีการแปลทำงานบนสาย Gemini Live API เป็นส่วนประกอบสำหรับนักพัฒนา ไม่ใช่ผู้ให้บริการโทรศัพท์
การยอมรับอย่างซื่อสัตย์ LiveLingo ผลิตภัณฑ์ที่เผยแพร่คู่มือนี้ เข้าข่ายคอลัมน์ที่สองในมิติเหล่านี้ส่วนใหญ่: ผลลัพธ์ข้อความ + เสียงแบบสตรีม การระบุผู้พูดแต่ละคน การมุ่งมั่นแบบเกตโมโนโทนิกเพื่อไม่ให้การแปลที่แสดงถูกถอนคืน โทรศัพท์ขาออกที่แปลแล้ว อย่างไรก็ตาม ผลลัพธ์เสียงของ LiveLingo ใช้เครื่องมือแปลข้อความเป็นเสียงเริ่มต้นของแพลตฟอร์มโฮสต์ (iOS ดั้งเดิมบนอุปกรณ์ Apple) ซึ่งฟังดูไม่เป็นธรรมชาติเท่าเสียงที่สร้างของ Gemini 3.5 Live Translate นั่นคือข้อได้เปรียบจริงที่ Google ส่งมอบวันนี้ เปรียบเทียบข้อกำหนดเคียงข้างกันที่ livelingo.io/compare/google-translate หรือตัวเลขเบนช์มาร์กที่วัดได้ที่ livelingo.io/research/benchmark-2026
8. 8. คำถามที่พบบ่อย
Gemini 3.5 Live Translate คืออะไร?
Gemini 3.5 Live Translate เป็นโมเดลแปลแบบเสียงต่อเสียงแบบสตรีมมิ่งที่ Google เปิดตัวเมื่อ 9 มิถุนายน 2026 สร้างจาก Gemini 3 Pro สร้างเสียงที่แปลแล้วซึ่งเก็บรักษาน้ำเสียง จังหวะ และระดับเสียงของผู้พูด และตรวจจับ 70+ ภาษาอัตโนมัติ มีให้นักพัฒนาผ่าน Gemini Live API และ Google AI Studio (พรีวิวสาธารณะ) ผู้บริโภคผ่านแอป Google Translate บน Android และ iOS และลูกค้า Google Workspace ที่เลือกไว้ผ่าน Google Meet (พรีวิวส่วนตัว)
Gemini 3.5 Live Translate รองรับภาษาอะไรบ้าง?
70+ ภาษา ตรวจจับอัตโนมัติ ใน Google Meet โดยเฉพาะ สิ่งนี้ขยายความครอบคลุมเดิมจาก 5 ภาษาเป็น 70+ ภาษา และรองรับการผสมผสานต้นทาง/เป้าหมายมากกว่า 2,000 แบบภายในการประชุมเดียว
Gemini 3.5 Live Translate ราคาเท่าไหร่?
สำหรับผู้บริโภค แอป Google Translate ฟรี การเข้าถึงนักพัฒนาผ่าน Gemini Live API และ Google AI Studio มีราคาตามอัตรา API มาตรฐานของ Google — ตรวจสอบ Google AI Studio สำหรับราคาปัจจุบัน การเข้าถึงองค์กรผ่าน Google Meet ถูกจำกัดให้กับลูกค้า Google Workspace ที่เลือกไว้ในพรีวิวส่วนตัวตั้งแต่ 9 มิถุนายน 2026
Gemini 3.5 Live Translate จัดการผู้พูดหลายคนอย่างไร?
ตาม Gemini 3.5 Audio model card ที่เผยแพร่โดย Google DeepMind: "เสียงอาจไม่สอดคล้องกัน และเสียงอาจเปลี่ยนหลังจากหยุดนาน เปลี่ยนเพศ หรือติดอยู่กับเสียงเดียวระหว่างเซสชันหลายผู้พูดที่รวดเร็ว" ในทางปฏิบัติ: การสนทนาหนึ่งต่อหนึ่งและการอภิปรายแบบผลัดกันที่มีการหยุดชัดเจนทำงานได้ดี; สถานการณ์หลายผู้พูดที่รวดเร็วเป็นจุดอ่อนที่บันทึกไว้ ไม่มีการระบุผู้พูดแต่ละคนในผลลัพธ์เสียงที่แปลแล้ว
Gemini 3.5 Live Translate ส่งออกข้อความหรือไม่?
ผลลัพธ์หลักเป็นเสียงที่แปลแล้ว บันทึกข้อความมีให้ แต่เป็นเพียงส่วนเสริมของผลลัพธ์เสียง — ไม่มีโหมดข้อความแบบสตรีม และ API โหมดการแปลไม่รับอินพุตข้อความ
ความล่าช้าที่วัดได้ของ Gemini 3.5 Live Translate คือเท่าไหร่?
Google อธิบายระบบว่าอยู่ "ไม่กี่วินาทีหลังผู้พูด" การวัดอิสระโดย LiveLingo Research ในวันเปิดตัวบันทึกความล่าช้าเสียงแรกมัธยฐาน 2,947 มิลลิวินาที (p10–p90: 2,859–3,104 มิลลิวินาที) ใน 120 คำพูดทดสอบ — ความล่าช้าการพูดคงที่ประมาณ 3 วินาที แหล่งที่มา: livelingo.io/research/benchmark-2026
Gemini 3.5 Live Translate เปิดตัวเมื่อไหร่?
Google ประกาศและเริ่มเปิดให้ใช้ Gemini 3.5 Live Translate เมื่อ 9 มิถุนายน 2026 ใน Gemini Live API และ Google AI Studio (พรีวิวสาธารณะนักพัฒนา) แอป Google Translate บน Android และ iOS (เปิดให้ใช้ทั่วโลกตั้งแต่วันนั้น) และ Google Meet (พรีวิวส่วนตัวสำหรับลูกค้า Workspace ที่เลือกไว้)
9. 9. แหล่งอ้างอิง
- Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Google blog, June 9, 2026. blog.google
- Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
- MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, June 9, 2026. marktechpost.com
- LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, June 9, 2026. livelingo.io/research/benchmark-2026