Gemini 3.5 Live Translate: คุณสมบัติ ข้อจำกัด วิธีใช้งาน (2026)

ผู้เชี่ยวชาญหลากหลายเชื้อชาติในการประชุมวิดีโอหลายภาษา โดยมีการแปลคำพูดไหลเวียนอย่างต่อเนื่องระหว่างผู้พูด

1. 1. Gemini 3.5 Live Translate คืออะไร

Gemini 3.5 Live Translate เป็นโมเดลแปลแบบเสียงต่อเสียงแบบสตรีมมิ่งที่ Google ประกาศเมื่อวันที่ 9 มิถุนายน 2026 มีลักษณะเด่นสองประการที่แตกต่างจากผลิตภัณฑ์แปลภาษารุ่นก่อน

ประการแรก เป็นระบบเสียงต่อเสียงแทนที่จะเป็นกระบวนการแบบเก่าที่ผ่านขั้นตอน เสียงเป็นข้อความ-แปล-ข้อความเป็นเสียง โมเดลรับเสียงต้นทางแบบสตรีมเป็นชิ้นๆ ละ 100 มิลลิวินาที และสร้างเสียงที่แปลแล้วเป็นผลลัพธ์ มีบันทึกข้อความให้ใช้ แต่เป็นเพียงส่วนเสริมของเสียงที่ออกมา — ไม่มีโหมดข้อความแบบสตรีม และไม่มีการระบุผู้พูดในเสียงที่แปลแล้ว

ประการที่สอง เสียงที่สร้างขึ้นถูกออกแบบให้เก็บรักษาลีลาการพูดของผู้พูด การประกาศของ Google อธิบายผลลัพธ์ที่เก็บน้ำเสียง จังหวะ และระดับเสียงของผู้พูดไว้ ในทางปฏิบัติ สิ่งนี้สร้างเสียงที่แปลแล้วซึ่งฟังดูเป็นธรรมชาติมากกว่าเครื่องมือแปลข้อความเป็นเสียงทั่วไปที่อ่านคำแปลออกเสียง — ข้อได้เปรียบที่แท้จริงเหนือระบบแปลเสียงที่ผลลัพธ์เสียงผ่านชั้น TTS มาตรฐาน

โมเดลสร้างจาก Gemini 3 Pro ตาม Gemini 3.5 Audio model card ที่เผยแพร่โดย Google DeepMind รับอินพุตเสียงที่มีบริบทสูงสุด 128K โทเค็น และสร้างผลลัพธ์เสียง + ข้อความสูงสุด 64K โทเค็น ตรวจจับ 70+ ภาษาอัตโนมัติ รวมถึงการเปลี่ยนภาษาอย่างรวดเร็วระหว่างผู้พูด แม้ว่าการตรวจจับนั้นจะมีจุดอ่อนที่บันทึกไว้ (ครอบคลุมในส่วนที่ 4)

การเปิดตัวครอบคลุมสามพื้นผิวผลิตภัณฑ์พร้อมกัน: การเข้าถึงสำหรับนักพัฒนาผ่าน Gemini Live API และ Google AI Studio (พรีวิวสาธารณะตั้งแต่ 9 มิถุนายน 2026); การเข้าถึงสำหรับผู้บริโภคผ่านแอป Google Translate บน Android และ iOS เปิดให้ใช้ทั่วโลกตั้งแต่วันนั้น พร้อม "โหมดฟัง" ใหม่บน Android; และการเข้าถึงสำหรับองค์กรผ่าน Google Meet ในพรีวิวส่วนตัวสำหรับลูกค้า Google Workspace ที่เลือกไว้ ซึ่งขยายความครอบคลุมการแปลของ Meet จาก 5 ภาษาเป็น 70+ ภาษา และรองรับการผสมผสานต้นทาง/เป้าหมายกว่า 2,000 แบบภายในการประชุมเดียว

2. 2. วิธีการทำงาน: สถาปัตยกรรมเสียงต่อเสียงและการเก็บรักษาลีลาการพูด

ตัวเลือกสถาปัตยกรรมสามประการที่ทำให้ Gemini 3.5 Live Translate แตกต่างจากระบบแปลแบบสตรีมมิ่งรุ่นก่อน

เสียงต่อเสียง ไม่ใช่เสียงเป็นข้อความเป็นเสียง

กระบวนการแบบดั้งเดิมส่งเสียงผ่านโมเดลแปลงเสียงเป็นข้อความแบบสตรีม ป้อนบันทึกให้กับโมเดลแปลภาษา จากนั้นสังเคราะห์คำแปลผ่านโมเดลแปลข้อความเป็นเสียงแยกต่างหาก แต่ละขั้นตอนเพิ่มความล่าช้าและสะสมข้อผิดพลาด Gemini 3.5 Live Translate รวมขั้นตอนเหล่านี้เป็นโมเดลเสียงเดียว ข้อแลกเปลี่ยน: ผลลัพธ์เป็นเสียงถาวร ไม่ใช่ข้อความที่แก้ไขได้ — เมื่อพูดคำใดออกไปแล้ว ไม่สามารถแก้ไขกลางประโยคได้

สตรีมต่อเนื่อง ไม่ใช่แบบผลัดกันพูด

การประกาศของ Google กำหนดกรอบโมเดลเป็นโมเดลที่ "สร้างสมดุลระหว่างการรอบริบทเพื่อปรับปรุงคุณภาพและการแปลทันทีเพื่อให้ตามทันผู้พูด" ผลิตภัณฑ์สำหรับผู้บริโภครุ่นก่อนเช่น โหมดสนทนาเดิมของ Google Translate เป็นแบบผลัดกัน: แตะ พูด รอให้ระบบสรุปและส่งคำแปล จากนั้นให้อีกฝ่ายแตะ Gemini 3.5 Live Translate ส่งเสียงที่แปลแล้วอย่างต่อเนื่องขณะที่ผู้พูดต้นทางยังพูดอยู่ โดย Google อธิบายความล่าช้า "ไม่กี่วินาที"

การถ่ายทอดลีลาการพูด

โมเดลถูกออกแบบให้นำลักษณะเสียงของผู้พูดต้นทาง — น้ำเสียง จังหวะ การเน้น ระดับเสียง — มาใส่ในเสียงที่แปลแล้ว นี่คือเหตุผลทางเทคนิคหลักที่ผลลัพธ์ฟังดูเป็นธรรมชาติแทนที่จะเป็นหุ่นยนต์ นี่ยังเป็นต้นเหตุของข้อจำกัดความสอดคล้องของเสียงที่โมเดลการ์ดของ Google เปิดเผย (ส่วนที่ 4)

ในพื้นผิวนักพัฒนา แต่ละเซสชันใช้เสียง PCM 16-bit ดิบที่ 16 kHz โมโนเป็นอินพุต และสร้างเสียง PCM 24 kHz โมโนเป็นผลลัพธ์ ส่งเป็นชิ้นๆ ละ 100 มิลลิวินาที เสียงที่สร้างทั้งหมดมีลายน้ำ SynthID ของ Google — ลายเซ็นที่มองไม่เห็นซึ่งถักทอเข้าไปในรูปคลื่นที่ช่วยให้ระบบปลายทางระบุเสียงว่าเป็นเสียงที่เครื่องสร้างขึ้น

สมาร์ทโฟนแสดงอินเทอร์เฟซการแปลเสียงแบบสตรีมพร้อมรูปคลื่นเสียงและการเลือกภาษา

3. 3. จุดแข็งของ Gemini 3.5 Live Translate

จุดแข็งของผลิตภัณฑ์ห้าประการที่เห็นได้ทันทีเมื่อเปรียบเทียบ Gemini 3.5 Live Translate กับคู่แข่ง

เสียงที่แปลแล้วฟังดูเป็นธรรมชาติ เสียงที่เก็บรักษาลีลาการพูดเป็นข้อได้เปรียบที่ชัดเจนที่สุดเหนือระบบแปลเสียงที่ผลลัพธ์เสียงผ่านเครื่องมือ TTS ทั่วไป หากคุณเคยใช้แอปแปลเสียงที่เสียงแปลแล้วฟังดูเหมือนผู้บรรยายเรียบๆ อ่านคำต่อคำ ความแตกต่างจะเห็นได้ทันที Gemini 3.5 Live Translate ดีกว่าอย่างเห็นได้ชัด และความแตกต่างจะได้ยินตั้งแต่ประโยคแรก

ความเรียบง่ายของเสียงต่อเสียง การสร้างแอปพลิเคชันแปลเสียงแบบดั้งเดิมหมายถึงการเชื่อมโมเดล STT แบบสตรีม (Whisper-large, Google Cloud Speech-to-Text, Azure Speech) โมเดลแปล และเครื่องมือ TTS — และจัดการความหมายการส่งบางส่วนของแต่ละส่วน Gemini 3.5 Live Translate แทนที่ห่วงโซ่นั้นด้วยการเรียก API เดียว ทำให้โค้ดแอปพลิเคชันและพื้นผิวความล้มเหลวง่ายขึ้น

การตรวจจับภาษาอัตโนมัติในระดับใหญ่ 70+ ภาษาตรวจจับอัตโนมัติ ไม่ต้องให้ผู้ใช้ตั้งคู่ภาษาล่วงหน้า การวางตำแหน่งของ Google เน้นกรณีการใช้งานเช่นการประชุมหลายฝ่ายที่ผู้พูดเปลี่ยนภาษากลางการสนทนา

การกระจาย สร้างเข้าไปในแอป Google Translate สำหรับผู้บริโภคและ Google Meet โดยตรง สำหรับผู้ใช้ปลายทาง ต้นทุนการติดตั้งและค้นหาเกือบเป็นศูนย์ — พวกเขามีแอปอยู่แล้ว สำหรับลูกค้า Meet การแปลมาถึงเป็นสวิตช์คุณสมบัติภายในเวิร์กโฟลว์ที่ใช้อยู่แล้ว

ผลลัพธ์ที่มีลายน้ำ ลายน้ำ SynthID ทำให้เสียงที่สร้างขึ้นสามารถระบุได้ว่าเป็นเสียงที่ AI สร้างสำหรับกรณีการใช้งานการปฏิบัติตามกฎระเบียบปลายทาง ซึ่งมีประโยชน์ในอุตสาหกรรมที่มีกฎระเบียบที่ต้องติดตามเนื้อหาที่ AI สร้าง

4. 4. สิ่งที่โมเดลการ์ดของ Google เองยอมรับว่าเป็นข้อจำกัด

Gemini 3.5 Audio model card ที่เผยแพร่โดย Google DeepMind บันทึกข้อจำกัดที่ทราบเฉพาะของ Gemini 3.5 Live Translate อ้างอิงจากการ์ดโดยตรง:

การตรวจจับภาษา

"การตรวจจับภาษาอาจมีปัญหากับสำเนียงที่ไม่ใช่เจ้าของภาษา ภาษาที่คล้ายกัน หรือการเปลี่ยนภาษาอย่างรวดเร็ว" ผลกระทบในทางปฏิบัติ: หากผู้พูดมีสำเนียงหนัก หรือภาษาต้นทางใกล้เคียงกับภาษาที่เกี่ยวข้อง (โปรตุเกสกับสเปน นอร์เวย์กับสวีเดน) หรือการสนทนาเปลี่ยนภาษาอย่างรวดเร็ว ตัวตรวจจับอาจเลือกภาษาต้นทางผิดและแปลตามนั้น

ความสอดคล้องของเสียงในเซสชันหลายผู้พูด

"เสียงอาจไม่สอดคล้องกัน และเสียงอาจเปลี่ยนหลังจากหยุดนาน เปลี่ยนเพศ หรือติดอยู่กับเสียงเดียวระหว่างเซสชันหลายผู้พูดที่รวดเร็ว" นี่คือข้อจำกัดที่สำคัญที่สุดในทางปฏิบัติสำหรับกรณีการใช้งานหลายๆ กรณี ในการประชุมที่มีผู้พูดหลายคนผลัดกันพูดอย่างรวดเร็ว โมเดลอาจสร้างผลลัพธ์การแปลทั้งหมดด้วยเสียงเดียว — สูญเสียการระบุผู้พูดที่ผู้ฟังพึ่งพาเพื่อติดตามการสนทนา

การกรองเสียงรบกวน

"ออกแบบมาเพื่อกรองเสียงพื้นหลัง แต่เสียงพื้นหลังทั้งหมดอาจไม่ถูกละเว้น" สภาพแวดล้อมในโลกจริงจะยังคงรั่วไหลผ่านในบางสภาวะ

ข้อจำกัดโหมดการแปล (API นักพัฒนา)

ตามการรายงานการเปิดตัวที่อ้างอิงเอกสารนักพัฒนาของ Google "ไม่รองรับอินพุตข้อความในโหมดการแปล" และโมเดล "ยกเลิกการใช้เครื่องมือและคำสั่งระบบในโหมดนี้" สำหรับนักพัฒนา การเรียก API การแปลเป็นพื้นผิวที่จำกัด — คุณไม่สามารถส่งข้อความ ไม่สามารถใช้ระบบเครื่องมือ Gemini ที่กว้างขึ้น และไม่สามารถแทรกพรอมต์ระบบ การแปลเข้า การแปลออก

5. 5. การวัดอิสระจาก LiveLingo 2026 Benchmark

LiveLingo Research ประเมิน Gemini 3.5 Live Translate ในวันเปิดตัว (9 มิถุนายน 2026) กับโปรโตคอลเดียวกันที่ใช้สำหรับเบนช์มาร์กเดิมของ Google Cloud STT v2 + Translation v3, Azure Speech Translation และ Whisper-large + GPT-4o-mini ภาคผนวกฉบับเต็มเผยแพร่ที่ livelingo.io/research/benchmark-2026#comprehension-gemini-live; ตัวเลขหลักอยู่ด้านล่าง

ความเที่ยงตรงในการเข้าใจรวม: 4.93 / 5 ใน 120 คำพูดและสี่คู่ภาษา (en→es, en→zh-CN, en→ja, en→de) นี่คือผลลัพธ์ที่แข็งแกร่งที่สุดในบรรดาระบบแข่งขันสี่ระบบในเบนช์มาร์ก; คะแนนที่ใกล้เคียงที่สุดคือ 4.77 (Google Cloud Translation v3)

ความล่าช้าเสียงแรก: มัธยฐาน 2,947 มิลลิวินาที จากจุดเริ่มต้นของการพูดถึงเสียงแปลแรก (p10–p90: 2,859–3,104 มิลลิวินาที) นี่คือความล่าช้าการพูดคงที่ ~3 วินาที สอดคล้องกับกรอบ "ไม่กี่วินาทีหลัง" ของ Google

ผลลัพธ์เป็นเสียงที่แปลแล้วเท่านั้น API ไม่มีโหมดข้อความแบบสตรีมและไม่มีการระบุผู้พูดแต่ละคน บันทึกข้อความมีให้เป็นส่วนเสริมของผลลัพธ์เสียง ผลลัพธ์เสียงไม่สามารถแก้ไขหลังจากส่งออกแล้ว

เสียงที่มีการสลับรหัสภาษา. ในคลิปข่าวภาษาจีนกลางที่สลับไปเป็นการสัมภาษณ์ข้างถนนภาษาอังกฤษที่ 86 วินาที เกณฑ์มาตรฐาน LiveLingo บันทึกว่าผลลัพธ์การแปลจะหยุดลงเมื่อมีการสลับภาษาในการทำงานทุกครั้ง: เสียงพูดที่อยู่ในภาษาปลายทางอยู่แล้วจะไม่ถูกแปลหรือถอดความ ทำให้เนื้อหา 34 วินาทีสุดท้าย (ประมาณ 28% ของคลิป) หายไปอย่างเงียบ ๆ สำหรับผู้ฟังโดยไม่มีข้อผิดพลาดใด ๆ เกิดขึ้น gpt-realtime-translate ของ OpenAI แสดงพฤติกรรมเดียวกันในคลิปเดียวกัน และ OpenAI ระบุว่าการข้ามเสียงพูดในภาษาปลายทางนั้นเป็นไปตามที่ตั้งใจไว้ ซึ่งเป็นข้อจำกัดเชิงโครงสร้างของนักแปลเสียงพูดเป็นเสียงพูดในปัจจุบันสำหรับเสียงที่มีการผสมภาษา

การกลับด้านข้อเท็จจริงในไวยากรณ์ที่แก้ไขช้า ในคลิปการพูดทางธุรกิจภาษาจีนกลาง ประโยคที่อธิบายการเพิ่มขายขึ้น 15% แสดงผลเป็นภาษาอังกฤษว่าเป็นเป้าหมายเพื่อเพิ่มยอดขายขึ้น 15% นี่คือคลาสข้อผิดพลาดที่การมุ่งมั่นเสียงกลางประโยคแบบไม่สามารถย้อนกลับได้สร้างขึ้นเมื่อภาษาต้นทางเลื่อนองค์ประกอบที่มีความหมาย (ขั้ว การอ้างอิงเวลา ประธาน) ไปจนถึงช่วงท้ายของประโยค

เหล่านี้เป็นการวัดอิสระ ไม่ใช่ตัวเลขของ Google เอง; วิธีการและข้อมูลดิบต่อคำพูดอยู่ในภาคผนวกที่เผยแพร่

6. 6. วิธีเข้าถึง Gemini 3.5 Live Translate

ผู้บริโภค — แอป Google Translate

อัปเดตแอป Google Translate เป็นเวอร์ชันล่าสุดบน Android หรือ iOS โหมด Live Translate กำลังเปิดให้ใช้ทั่วโลกตั้งแต่ 9 มิถุนายน 2026 — ความพร้อมใช้งานขึ้นอยู่กับตารางการเปิดตัวของสโตร์ในภูมิภาคของคุณ บน Android "โหมดฟัง" ใหม่ให้คุณได้ยินเสียงที่แปลแล้วโดยตรงผ่านหูฟังของอุปกรณ์

นักพัฒนา — Gemini Live API + Google AI Studio

โมเดลมีให้ในพรีวิวสาธารณะผ่าน Gemini Live API และผ่าน Google AI Studio ตามการรายงานการเปิดตัว ข้อจำกัดการรวมเฉพาะ: อินพุตเสียงเท่านั้น (ไม่มีอินพุตข้อความในโหมดการแปล) ไม่มีการใช้เครื่องมือหรือคำสั่งระบบ อินพุต PCM 16-bit ดิบ 16 kHz โมโนแบ่งที่ 100 มิลลิวินาที ผลลัพธ์ PCM 24 kHz อ้างอิง Google AI Studio สำหรับโควต้าและราคาปัจจุบัน

องค์กร — Google Meet

Gemini 3.5 Live Translate อยู่ในพรีวิวส่วนตัวสำหรับลูกค้า Google Workspace ที่เลือกไว้ตั้งแต่ 9 มิถุนายน 2026 เมื่อเปิดใช้งาน จะขยายความครอบคลุมการแปลของ Meet จาก 5 ภาษาเป็น 70+ ภาษา และรองรับการผสมผสานต้นทาง/เป้าหมาย 2,000+ แบบภายในการประชุมเดียว ความพร้อมใช้งานเป็นแบบค่อยเป็นค่อยไป ไม่ใช่ทั่วไป

7. 7. เมื่อไหร่ควรใช้ Gemini 3.5 — และเมื่อไหร่เครื่องมืออื่นเหมาะสมกว่า

เมื่อ Gemini 3.5 Live Translate เป็นตัวเลือกที่ถูกต้อง

คุณต้องการเสียงที่แปลแล้ว ไม่ใช่ข้อความที่แปลแล้ว ผลลัพธ์เสียงธรรมชาติเป็นข้อได้เปรียบที่ใหญ่ที่สุดของผลิตภัณฑ์
คุณอยู่ในแอป Google Translate หรือ Google Meet อยู่แล้ว การรวมไม่มีต้นทุนในการค้นหาและใช้งาน
การสนทนาของคุณเป็นแบบหนึ่งต่อหนึ่ง หรือมีการผลัดกันพูดอย่างชัดเจนโดยมีการหยุดระหว่างผู้พูด ข้อจำกัดความสอดคล้องของเสียงที่โมเดลการ์ดของ Google เปิดเผยจะอ่อนแอลงในบริบทเหล่านี้
คุณกำลังสร้างแอปพลิเคชันนักพัฒนาที่การทำให้ห่วงโซ่ STT → MT → TTS เป็น API เดียวสำคัญกว่าการควบคุมแต่ละขั้นตอนอย่างละเอียด
คุณสามารถอยู่ได้โดยไม่มีการระบุผู้พูดในผลลัพธ์เสียง และไม่มีบันทึกข้อความแบบสตรีม

เมื่อคุณอาจต้องการเครื่องมืออื่น

คุณต้องการข้อความแบบสตรีมควบคู่หรือแทนเสียง ข้อความแบบสตรีมคือสิ่งที่อินเทอร์เฟซการผลิตส่วนใหญ่แสดงบนหน้าจอระหว่างการแคปชันสด การแปลการประชุม และสถานการณ์การเข้าถึง ข้อความของ Gemini 3.5 Live Translate เป็นเพียงส่วนเสริม
คุณต้องการการระบุผู้พูดแต่ละคนในผลลัพธ์ที่แปลแล้ว การเปิดเผย "อาจติดอยู่กับเสียงเดียวระหว่างเซสชันหลายผู้พูดที่รวดเร็ว" ของโมเดลการ์ดทำให้นี่เป็นความเสี่ยงจริงสำหรับการประชุม
คุณแปลการสนทนาที่ความเสถียรสำคัญกว่าการแสดงออก ผลลัพธ์เสียงไม่สามารถแก้ไขกลางคำพูดได้ ดังนั้นในภาษาที่มีไวยากรณ์แก้ไขช้า (ขั้วภาษาจีนกลางที่ท้ายประโยค กริยาภาษาญี่ปุ่นที่ท้ายประโยค) การมุ่งมั่นก่อนกำหนดอาจกลับความหมาย ภาคผนวกเบนช์มาร์กบันทึกกรณีหนึ่งเช่นนั้น
คุณต้องการโทรศัพท์ที่แปลแล้ว — โทรหมายเลข PSTN โดยมีการแปลทำงานบนสาย Gemini Live API เป็นส่วนประกอบสำหรับนักพัฒนา ไม่ใช่ผู้ให้บริการโทรศัพท์

การยอมรับอย่างซื่อสัตย์ LiveLingo ผลิตภัณฑ์ที่เผยแพร่คู่มือนี้ เข้าข่ายคอลัมน์ที่สองในมิติเหล่านี้ส่วนใหญ่: ผลลัพธ์ข้อความ + เสียงแบบสตรีม การระบุผู้พูดแต่ละคน การมุ่งมั่นแบบเกตโมโนโทนิกเพื่อไม่ให้การแปลที่แสดงถูกถอนคืน โทรศัพท์ขาออกที่แปลแล้ว อย่างไรก็ตาม ผลลัพธ์เสียงของ LiveLingo ใช้เครื่องมือแปลข้อความเป็นเสียงเริ่มต้นของแพลตฟอร์มโฮสต์ (iOS ดั้งเดิมบนอุปกรณ์ Apple) ซึ่งฟังดูไม่เป็นธรรมชาติเท่าเสียงที่สร้างของ Gemini 3.5 Live Translate นั่นคือข้อได้เปรียบจริงที่ Google ส่งมอบวันนี้ เปรียบเทียบข้อกำหนดเคียงข้างกันที่ livelingo.io/compare/google-translate หรือตัวเลขเบนช์มาร์กที่วัดได้ที่ livelingo.io/research/benchmark-2026

8. 8. คำถามที่พบบ่อย

Gemini 3.5 Live Translate คืออะไร?

Gemini 3.5 Live Translate เป็นโมเดลแปลแบบเสียงต่อเสียงแบบสตรีมมิ่งที่ Google เปิดตัวเมื่อ 9 มิถุนายน 2026 สร้างจาก Gemini 3 Pro สร้างเสียงที่แปลแล้วซึ่งเก็บรักษาน้ำเสียง จังหวะ และระดับเสียงของผู้พูด และตรวจจับ 70+ ภาษาอัตโนมัติ มีให้นักพัฒนาผ่าน Gemini Live API และ Google AI Studio (พรีวิวสาธารณะ) ผู้บริโภคผ่านแอป Google Translate บน Android และ iOS และลูกค้า Google Workspace ที่เลือกไว้ผ่าน Google Meet (พรีวิวส่วนตัว)

Gemini 3.5 Live Translate รองรับภาษาอะไรบ้าง?

70+ ภาษา ตรวจจับอัตโนมัติ ใน Google Meet โดยเฉพาะ สิ่งนี้ขยายความครอบคลุมเดิมจาก 5 ภาษาเป็น 70+ ภาษา และรองรับการผสมผสานต้นทาง/เป้าหมายมากกว่า 2,000 แบบภายในการประชุมเดียว

Gemini 3.5 Live Translate ราคาเท่าไหร่?

สำหรับผู้บริโภค แอป Google Translate ฟรี การเข้าถึงนักพัฒนาผ่าน Gemini Live API และ Google AI Studio มีราคาตามอัตรา API มาตรฐานของ Google — ตรวจสอบ Google AI Studio สำหรับราคาปัจจุบัน การเข้าถึงองค์กรผ่าน Google Meet ถูกจำกัดให้กับลูกค้า Google Workspace ที่เลือกไว้ในพรีวิวส่วนตัวตั้งแต่ 9 มิถุนายน 2026

Gemini 3.5 Live Translate จัดการผู้พูดหลายคนอย่างไร?

ตาม Gemini 3.5 Audio model card ที่เผยแพร่โดย Google DeepMind: "เสียงอาจไม่สอดคล้องกัน และเสียงอาจเปลี่ยนหลังจากหยุดนาน เปลี่ยนเพศ หรือติดอยู่กับเสียงเดียวระหว่างเซสชันหลายผู้พูดที่รวดเร็ว" ในทางปฏิบัติ: การสนทนาหนึ่งต่อหนึ่งและการอภิปรายแบบผลัดกันที่มีการหยุดชัดเจนทำงานได้ดี; สถานการณ์หลายผู้พูดที่รวดเร็วเป็นจุดอ่อนที่บันทึกไว้ ไม่มีการระบุผู้พูดแต่ละคนในผลลัพธ์เสียงที่แปลแล้ว

Gemini 3.5 Live Translate ส่งออกข้อความหรือไม่?

ผลลัพธ์หลักเป็นเสียงที่แปลแล้ว บันทึกข้อความมีให้ แต่เป็นเพียงส่วนเสริมของผลลัพธ์เสียง — ไม่มีโหมดข้อความแบบสตรีม และ API โหมดการแปลไม่รับอินพุตข้อความ

ความล่าช้าที่วัดได้ของ Gemini 3.5 Live Translate คือเท่าไหร่?

Google อธิบายระบบว่าอยู่ "ไม่กี่วินาทีหลังผู้พูด" การวัดอิสระโดย LiveLingo Research ในวันเปิดตัวบันทึกความล่าช้าเสียงแรกมัธยฐาน 2,947 มิลลิวินาที (p10–p90: 2,859–3,104 มิลลิวินาที) ใน 120 คำพูดทดสอบ — ความล่าช้าการพูดคงที่ประมาณ 3 วินาที แหล่งที่มา: livelingo.io/research/benchmark-2026

Gemini 3.5 Live Translate เปิดตัวเมื่อไหร่?

Google ประกาศและเริ่มเปิดให้ใช้ Gemini 3.5 Live Translate เมื่อ 9 มิถุนายน 2026 ใน Gemini Live API และ Google AI Studio (พรีวิวสาธารณะนักพัฒนา) แอป Google Translate บน Android และ iOS (เปิดให้ใช้ทั่วโลกตั้งแต่วันนั้น) และ Google Meet (พรีวิวส่วนตัวสำหรับลูกค้า Workspace ที่เลือกไว้)

9. 9. แหล่งอ้างอิง

Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Google blog, June 9, 2026. blog.google
Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, June 9, 2026. marktechpost.com
LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, June 9, 2026. livelingo.io/research/benchmark-2026