LiveLingoLiveLingoTry free

Gemini 3.5 Live Translate: คุณสมบัติ ข้อจำกัด วิธีใช้งาน (2026)

Google เปิดตัว Gemini 3.5 Live Translate เมื่อวันที่ 9 มิถุนายน 2026 — โมเดลเสียงที่สร้างจาก Gemini 3 Pro ที่สตรีมการแปลแบบเสียงต่อเสียงใน 70+ ภาษา ตรวจจับภาษาต้นทางอัตโนมัติ และสร้างผลลัพธ์ที่เก็บรักษาน้ำเสียง จังหวะ และระดับเสียงของผู้พูดไว้ คู่มือนี้ครอบคลุมการทำงาน ข้อจำกัดที่ Google ระบุไว้ในโมเดลการ์ดอย่างเป็นทางการ วิธีเข้าถึง และตำแหน่งเมื่อเทียบกับเครื่องมือแปลเสียงอื่นๆ

ผู้เชี่ยวชาญหลากหลายเชื้อชาติในการประชุมวิดีโอหลายภาษา โดยมีการแปลคำพูดไหลเวียนอย่างต่อเนื่องระหว่างผู้พูด

1. 1. Gemini 3.5 Live Translate คืออะไร

Gemini 3.5 Live Translate เป็นโมเดลแปลแบบเสียงต่อเสียงแบบสตรีมมิ่งที่ Google ประกาศเมื่อวันที่ 9 มิถุนายน 2026 มีลักษณะเด่นสองประการที่แตกต่างจากผลิตภัณฑ์แปลภาษารุ่นก่อน

ประการแรก เป็นระบบเสียงต่อเสียงแทนที่จะเป็นกระบวนการแบบเก่าที่ผ่านขั้นตอน เสียงเป็นข้อความ-แปล-ข้อความเป็นเสียง โมเดลรับเสียงต้นทางแบบสตรีมเป็นชิ้นๆ ละ 100 มิลลิวินาที และสร้างเสียงที่แปลแล้วเป็นผลลัพธ์ มีบันทึกข้อความให้ใช้ แต่เป็นเพียงส่วนเสริมของเสียงที่ออกมา — ไม่มีโหมดข้อความแบบสตรีม และไม่มีการระบุผู้พูดในเสียงที่แปลแล้ว

ประการที่สอง เสียงที่สร้างขึ้นถูกออกแบบให้เก็บรักษาลีลาการพูดของผู้พูด การประกาศของ Google อธิบายผลลัพธ์ที่เก็บน้ำเสียง จังหวะ และระดับเสียงของผู้พูดไว้ ในทางปฏิบัติ สิ่งนี้สร้างเสียงที่แปลแล้วซึ่งฟังดูเป็นธรรมชาติมากกว่าเครื่องมือแปลข้อความเป็นเสียงทั่วไปที่อ่านคำแปลออกเสียง — ข้อได้เปรียบที่แท้จริงเหนือระบบแปลเสียงที่ผลลัพธ์เสียงผ่านชั้น TTS มาตรฐาน

โมเดลสร้างจาก Gemini 3 Pro ตาม Gemini 3.5 Audio model card ที่เผยแพร่โดย Google DeepMind รับอินพุตเสียงที่มีบริบทสูงสุด 128K โทเค็น และสร้างผลลัพธ์เสียง + ข้อความสูงสุด 64K โทเค็น ตรวจจับ 70+ ภาษาอัตโนมัติ รวมถึงการเปลี่ยนภาษาอย่างรวดเร็วระหว่างผู้พูด แม้ว่าการตรวจจับนั้นจะมีจุดอ่อนที่บันทึกไว้ (ครอบคลุมในส่วนที่ 4)

การเปิดตัวครอบคลุมสามพื้นผิวผลิตภัณฑ์พร้อมกัน: การเข้าถึงสำหรับนักพัฒนาผ่าน Gemini Live API และ Google AI Studio (พรีวิวสาธารณะตั้งแต่ 9 มิถุนายน 2026); การเข้าถึงสำหรับผู้บริโภคผ่านแอป Google Translate บน Android และ iOS เปิดให้ใช้ทั่วโลกตั้งแต่วันนั้น พร้อม "โหมดฟัง" ใหม่บน Android; และการเข้าถึงสำหรับองค์กรผ่าน Google Meet ในพรีวิวส่วนตัวสำหรับลูกค้า Google Workspace ที่เลือกไว้ ซึ่งขยายความครอบคลุมการแปลของ Meet จาก 5 ภาษาเป็น 70+ ภาษา และรองรับการผสมผสานต้นทาง/เป้าหมายกว่า 2,000 แบบภายในการประชุมเดียว

2. 2. วิธีการทำงาน: สถาปัตยกรรมเสียงต่อเสียงและการเก็บรักษาลีลาการพูด

ตัวเลือกสถาปัตยกรรมสามประการที่ทำให้ Gemini 3.5 Live Translate แตกต่างจากระบบแปลแบบสตรีมมิ่งรุ่นก่อน

เสียงต่อเสียง ไม่ใช่เสียงเป็นข้อความเป็นเสียง

กระบวนการแบบดั้งเดิมส่งเสียงผ่านโมเดลแปลงเสียงเป็นข้อความแบบสตรีม ป้อนบันทึกให้กับโมเดลแปลภาษา จากนั้นสังเคราะห์คำแปลผ่านโมเดลแปลข้อความเป็นเสียงแยกต่างหาก แต่ละขั้นตอนเพิ่มความล่าช้าและสะสมข้อผิดพลาด Gemini 3.5 Live Translate รวมขั้นตอนเหล่านี้เป็นโมเดลเสียงเดียว ข้อแลกเปลี่ยน: ผลลัพธ์เป็นเสียงถาวร ไม่ใช่ข้อความที่แก้ไขได้ — เมื่อพูดคำใดออกไปแล้ว ไม่สามารถแก้ไขกลางประโยคได้

สตรีมต่อเนื่อง ไม่ใช่แบบผลัดกันพูด

การประกาศของ Google กำหนดกรอบโมเดลเป็นโมเดลที่ "สร้างสมดุลระหว่างการรอบริบทเพื่อปรับปรุงคุณภาพและการแปลทันทีเพื่อให้ตามทันผู้พูด" ผลิตภัณฑ์สำหรับผู้บริโภครุ่นก่อนเช่น โหมดสนทนาเดิมของ Google Translate เป็นแบบผลัดกัน: แตะ พูด รอให้ระบบสรุปและส่งคำแปล จากนั้นให้อีกฝ่ายแตะ Gemini 3.5 Live Translate ส่งเสียงที่แปลแล้วอย่างต่อเนื่องขณะที่ผู้พูดต้นทางยังพูดอยู่ โดย Google อธิบายความล่าช้า "ไม่กี่วินาที"

การถ่ายทอดลีลาการพูด

โมเดลถูกออกแบบให้นำลักษณะเสียงของผู้พูดต้นทาง — น้ำเสียง จังหวะ การเน้น ระดับเสียง — มาใส่ในเสียงที่แปลแล้ว นี่คือเหตุผลทางเทคนิคหลักที่ผลลัพธ์ฟังดูเป็นธรรมชาติแทนที่จะเป็นหุ่นยนต์ นี่ยังเป็นต้นเหตุของข้อจำกัดความสอดคล้องของเสียงที่โมเดลการ์ดของ Google เปิดเผย (ส่วนที่ 4)

ในพื้นผิวนักพัฒนา แต่ละเซสชันใช้เสียง PCM 16-bit ดิบที่ 16 kHz โมโนเป็นอินพุต และสร้างเสียง PCM 24 kHz โมโนเป็นผลลัพธ์ ส่งเป็นชิ้นๆ ละ 100 มิลลิวินาที เสียงที่สร้างทั้งหมดมีลายน้ำ SynthID ของ Google — ลายเซ็นที่มองไม่เห็นซึ่งถักทอเข้าไปในรูปคลื่นที่ช่วยให้ระบบปลายทางระบุเสียงว่าเป็นเสียงที่เครื่องสร้างขึ้น

สมาร์ทโฟนแสดงอินเทอร์เฟซการแปลเสียงแบบสตรีมพร้อมรูปคลื่นเสียงและการเลือกภาษา

3. 3. จุดแข็งของ Gemini 3.5 Live Translate

จุดแข็งของผลิตภัณฑ์ห้าประการที่เห็นได้ทันทีเมื่อเปรียบเทียบ Gemini 3.5 Live Translate กับคู่แข่ง

เสียงที่แปลแล้วฟังดูเป็นธรรมชาติ เสียงที่เก็บรักษาลีลาการพูดเป็นข้อได้เปรียบที่ชัดเจนที่สุดเหนือระบบแปลเสียงที่ผลลัพธ์เสียงผ่านเครื่องมือ TTS ทั่วไป หากคุณเคยใช้แอปแปลเสียงที่เสียงแปลแล้วฟังดูเหมือนผู้บรรยายเรียบๆ อ่านคำต่อคำ ความแตกต่างจะเห็นได้ทันที Gemini 3.5 Live Translate ดีกว่าอย่างเห็นได้ชัด และความแตกต่างจะได้ยินตั้งแต่ประโยคแรก

ความเรียบง่ายของเสียงต่อเสียง การสร้างแอปพลิเคชันแปลเสียงแบบดั้งเดิมหมายถึงการเชื่อมโมเดล STT แบบสตรีม (Whisper-large, Google Cloud Speech-to-Text, Azure Speech) โมเดลแปล และเครื่องมือ TTS — และจัดการความหมายการส่งบางส่วนของแต่ละส่วน Gemini 3.5 Live Translate แทนที่ห่วงโซ่นั้นด้วยการเรียก API เดียว ทำให้โค้ดแอปพลิเคชันและพื้นผิวความล้มเหลวง่ายขึ้น

การตรวจจับภาษาอัตโนมัติในระดับใหญ่ 70+ ภาษาตรวจจับอัตโนมัติ ไม่ต้องให้ผู้ใช้ตั้งคู่ภาษาล่วงหน้า การวางตำแหน่งของ Google เน้นกรณีการใช้งานเช่นการประชุมหลายฝ่ายที่ผู้พูดเปลี่ยนภาษากลางการสนทนา

การกระจาย สร้างเข้าไปในแอป Google Translate สำหรับผู้บริโภคและ Google Meet โดยตรง สำหรับผู้ใช้ปลายทาง ต้นทุนการติดตั้งและค้นหาเกือบเป็นศูนย์ — พวกเขามีแอปอยู่แล้ว สำหรับลูกค้า Meet การแปลมาถึงเป็นสวิตช์คุณสมบัติภายในเวิร์กโฟลว์ที่ใช้อยู่แล้ว

ผลลัพธ์ที่มีลายน้ำ ลายน้ำ SynthID ทำให้เสียงที่สร้างขึ้นสามารถระบุได้ว่าเป็นเสียงที่ AI สร้างสำหรับกรณีการใช้งานการปฏิบัติตามกฎระเบียบปลายทาง ซึ่งมีประโยชน์ในอุตสาหกรรมที่มีกฎระเบียบที่ต้องติดตามเนื้อหาที่ AI สร้าง

4. 4. สิ่งที่โมเดลการ์ดของ Google เองยอมรับว่าเป็นข้อจำกัด

Gemini 3.5 Audio model card ที่เผยแพร่โดย Google DeepMind บันทึกข้อจำกัดที่ทราบเฉพาะของ Gemini 3.5 Live Translate อ้างอิงจากการ์ดโดยตรง:

การตรวจจับภาษา

"การตรวจจับภาษาอาจมีปัญหากับสำเนียงที่ไม่ใช่เจ้าของภาษา ภาษาที่คล้ายกัน หรือการเปลี่ยนภาษาอย่างรวดเร็ว" ผลกระทบในทางปฏิบัติ: หากผู้พูดมีสำเนียงหนัก หรือภาษาต้นทางใกล้เคียงกับภาษาที่เกี่ยวข้อง (โปรตุเกสกับสเปน นอร์เวย์กับสวีเดน) หรือการสนทนาเปลี่ยนภาษาอย่างรวดเร็ว ตัวตรวจจับอาจเลือกภาษาต้นทางผิดและแปลตามนั้น

ความสอดคล้องของเสียงในเซสชันหลายผู้พูด

"เสียงอาจไม่สอดคล้องกัน และเสียงอาจเปลี่ยนหลังจากหยุดนาน เปลี่ยนเพศ หรือติดอยู่กับเสียงเดียวระหว่างเซสชันหลายผู้พูดที่รวดเร็ว" นี่คือข้อจำกัดที่สำคัญที่สุดในทางปฏิบัติสำหรับกรณีการใช้งานหลายๆ กรณี ในการประชุมที่มีผู้พูดหลายคนผลัดกันพูดอย่างรวดเร็ว โมเดลอาจสร้างผลลัพธ์การแปลทั้งหมดด้วยเสียงเดียว — สูญเสียการระบุผู้พูดที่ผู้ฟังพึ่งพาเพื่อติดตามการสนทนา

การกรองเสียงรบกวน

"ออกแบบมาเพื่อกรองเสียงพื้นหลัง แต่เสียงพื้นหลังทั้งหมดอาจไม่ถูกละเว้น" สภาพแวดล้อมในโลกจริงจะยังคงรั่วไหลผ่านในบางสภาวะ

ข้อจำกัดโหมดการแปล (API นักพัฒนา)

ตามการรายงานการเปิดตัวที่อ้างอิงเอกสารนักพัฒนาของ Google "ไม่รองรับอินพุตข้อความในโหมดการแปล" และโมเดล "ยกเลิกการใช้เครื่องมือและคำสั่งระบบในโหมดนี้" สำหรับนักพัฒนา การเรียก API การแปลเป็นพื้นผิวที่จำกัด — คุณไม่สามารถส่งข้อความ ไม่สามารถใช้ระบบเครื่องมือ Gemini ที่กว้างขึ้น และไม่สามารถแทรกพรอมต์ระบบ การแปลเข้า การแปลออก

5. 5. การวัดอิสระจาก LiveLingo 2026 Benchmark

LiveLingo Research ประเมิน Gemini 3.5 Live Translate ในวันเปิดตัว (9 มิถุนายน 2026) กับโปรโตคอลเดียวกันที่ใช้สำหรับเบนช์มาร์กเดิมของ Google Cloud STT v2 + Translation v3, Azure Speech Translation และ Whisper-large + GPT-4o-mini ภาคผนวกฉบับเต็มเผยแพร่ที่ livelingo.io/research/benchmark-2026#comprehension-gemini-live; ตัวเลขหลักอยู่ด้านล่าง

ความเที่ยงตรงในการเข้าใจรวม: 4.93 / 5 ใน 120 คำพูดและสี่คู่ภาษา (en→es, en→zh-CN, en→ja, en→de) นี่คือผลลัพธ์ที่แข็งแกร่งที่สุดในบรรดาระบบแข่งขันสี่ระบบในเบนช์มาร์ก; คะแนนที่ใกล้เคียงที่สุดคือ 4.77 (Google Cloud Translation v3)

ความล่าช้าเสียงแรก: มัธยฐาน 2,947 มิลลิวินาที จากจุดเริ่มต้นของการพูดถึงเสียงแปลแรก (p10–p90: 2,859–3,104 มิลลิวินาที) นี่คือความล่าช้าการพูดคงที่ ~3 วินาที สอดคล้องกับกรอบ "ไม่กี่วินาทีหลัง" ของ Google

ผลลัพธ์เป็นเสียงที่แปลแล้วเท่านั้น API ไม่มีโหมดข้อความแบบสตรีมและไม่มีการระบุผู้พูดแต่ละคน บันทึกข้อความมีให้เป็นส่วนเสริมของผลลัพธ์เสียง ผลลัพธ์เสียงไม่สามารถแก้ไขหลังจากส่งออกแล้ว

เสียงที่มีการสลับรหัสภาษา. ในคลิปข่าวภาษาจีนกลางที่สลับไปเป็นการสัมภาษณ์ข้างถนนภาษาอังกฤษที่ 86 วินาที เกณฑ์มาตรฐาน LiveLingo บันทึกว่าผลลัพธ์การแปลจะหยุดลงเมื่อมีการสลับภาษาในการทำงานทุกครั้ง: เสียงพูดที่อยู่ในภาษาปลายทางอยู่แล้วจะไม่ถูกแปลหรือถอดความ ทำให้เนื้อหา 34 วินาทีสุดท้าย (ประมาณ 28% ของคลิป) หายไปอย่างเงียบ ๆ สำหรับผู้ฟังโดยไม่มีข้อผิดพลาดใด ๆ เกิดขึ้น gpt-realtime-translate ของ OpenAI แสดงพฤติกรรมเดียวกันในคลิปเดียวกัน และ OpenAI ระบุว่าการข้ามเสียงพูดในภาษาปลายทางนั้นเป็นไปตามที่ตั้งใจไว้ ซึ่งเป็นข้อจำกัดเชิงโครงสร้างของนักแปลเสียงพูดเป็นเสียงพูดในปัจจุบันสำหรับเสียงที่มีการผสมภาษา

การกลับด้านข้อเท็จจริงในไวยากรณ์ที่แก้ไขช้า ในคลิปการพูดทางธุรกิจภาษาจีนกลาง ประโยคที่อธิบายการเพิ่มขายขึ้น 15% แสดงผลเป็นภาษาอังกฤษว่าเป็นเป้าหมายเพื่อเพิ่มยอดขายขึ้น 15% นี่คือคลาสข้อผิดพลาดที่การมุ่งมั่นเสียงกลางประโยคแบบไม่สามารถย้อนกลับได้สร้างขึ้นเมื่อภาษาต้นทางเลื่อนองค์ประกอบที่มีความหมาย (ขั้ว การอ้างอิงเวลา ประธาน) ไปจนถึงช่วงท้ายของประโยค

เหล่านี้เป็นการวัดอิสระ ไม่ใช่ตัวเลขของ Google เอง; วิธีการและข้อมูลดิบต่อคำพูดอยู่ในภาคผนวกที่เผยแพร่

6. 6. วิธีเข้าถึง Gemini 3.5 Live Translate

ผู้บริโภค — แอป Google Translate

อัปเดตแอป Google Translate เป็นเวอร์ชันล่าสุดบน Android หรือ iOS โหมด Live Translate กำลังเปิดให้ใช้ทั่วโลกตั้งแต่ 9 มิถุนายน 2026 — ความพร้อมใช้งานขึ้นอยู่กับตารางการเปิดตัวของสโตร์ในภูมิภาคของคุณ บน Android "โหมดฟัง" ใหม่ให้คุณได้ยินเสียงที่แปลแล้วโดยตรงผ่านหูฟังของอุปกรณ์

นักพัฒนา — Gemini Live API + Google AI Studio

โมเดลมีให้ในพรีวิวสาธารณะผ่าน Gemini Live API และผ่าน Google AI Studio ตามการรายงานการเปิดตัว ข้อจำกัดการรวมเฉพาะ: อินพุตเสียงเท่านั้น (ไม่มีอินพุตข้อความในโหมดการแปล) ไม่มีการใช้เครื่องมือหรือคำสั่งระบบ อินพุต PCM 16-bit ดิบ 16 kHz โมโนแบ่งที่ 100 มิลลิวินาที ผลลัพธ์ PCM 24 kHz อ้างอิง Google AI Studio สำหรับโควต้าและราคาปัจจุบัน

องค์กร — Google Meet

Gemini 3.5 Live Translate อยู่ในพรีวิวส่วนตัวสำหรับลูกค้า Google Workspace ที่เลือกไว้ตั้งแต่ 9 มิถุนายน 2026 เมื่อเปิดใช้งาน จะขยายความครอบคลุมการแปลของ Meet จาก 5 ภาษาเป็น 70+ ภาษา และรองรับการผสมผสานต้นทาง/เป้าหมาย 2,000+ แบบภายในการประชุมเดียว ความพร้อมใช้งานเป็นแบบค่อยเป็นค่อยไป ไม่ใช่ทั่วไป

7. 7. เมื่อไหร่ควรใช้ Gemini 3.5 — และเมื่อไหร่เครื่องมืออื่นเหมาะสมกว่า

เมื่อ Gemini 3.5 Live Translate เป็นตัวเลือกที่ถูกต้อง

  • คุณต้องการเสียงที่แปลแล้ว ไม่ใช่ข้อความที่แปลแล้ว ผลลัพธ์เสียงธรรมชาติเป็นข้อได้เปรียบที่ใหญ่ที่สุดของผลิตภัณฑ์
  • คุณอยู่ในแอป Google Translate หรือ Google Meet อยู่แล้ว การรวมไม่มีต้นทุนในการค้นหาและใช้งาน
  • การสนทนาของคุณเป็นแบบหนึ่งต่อหนึ่ง หรือมีการผลัดกันพูดอย่างชัดเจนโดยมีการหยุดระหว่างผู้พูด ข้อจำกัดความสอดคล้องของเสียงที่โมเดลการ์ดของ Google เปิดเผยจะอ่อนแอลงในบริบทเหล่านี้
  • คุณกำลังสร้างแอปพลิเคชันนักพัฒนาที่การทำให้ห่วงโซ่ STT → MT → TTS เป็น API เดียวสำคัญกว่าการควบคุมแต่ละขั้นตอนอย่างละเอียด
  • คุณสามารถอยู่ได้โดยไม่มีการระบุผู้พูดในผลลัพธ์เสียง และไม่มีบันทึกข้อความแบบสตรีม

เมื่อคุณอาจต้องการเครื่องมืออื่น

  • คุณต้องการข้อความแบบสตรีมควบคู่หรือแทนเสียง ข้อความแบบสตรีมคือสิ่งที่อินเทอร์เฟซการผลิตส่วนใหญ่แสดงบนหน้าจอระหว่างการแคปชันสด การแปลการประชุม และสถานการณ์การเข้าถึง ข้อความของ Gemini 3.5 Live Translate เป็นเพียงส่วนเสริม
  • คุณต้องการการระบุผู้พูดแต่ละคนในผลลัพธ์ที่แปลแล้ว การเปิดเผย "อาจติดอยู่กับเสียงเดียวระหว่างเซสชันหลายผู้พูดที่รวดเร็ว" ของโมเดลการ์ดทำให้นี่เป็นความเสี่ยงจริงสำหรับการประชุม
  • คุณแปลการสนทนาที่ความเสถียรสำคัญกว่าการแสดงออก ผลลัพธ์เสียงไม่สามารถแก้ไขกลางคำพูดได้ ดังนั้นในภาษาที่มีไวยากรณ์แก้ไขช้า (ขั้วภาษาจีนกลางที่ท้ายประโยค กริยาภาษาญี่ปุ่นที่ท้ายประโยค) การมุ่งมั่นก่อนกำหนดอาจกลับความหมาย ภาคผนวกเบนช์มาร์กบันทึกกรณีหนึ่งเช่นนั้น
  • คุณต้องการโทรศัพท์ที่แปลแล้ว — โทรหมายเลข PSTN โดยมีการแปลทำงานบนสาย Gemini Live API เป็นส่วนประกอบสำหรับนักพัฒนา ไม่ใช่ผู้ให้บริการโทรศัพท์

การยอมรับอย่างซื่อสัตย์ LiveLingo ผลิตภัณฑ์ที่เผยแพร่คู่มือนี้ เข้าข่ายคอลัมน์ที่สองในมิติเหล่านี้ส่วนใหญ่: ผลลัพธ์ข้อความ + เสียงแบบสตรีม การระบุผู้พูดแต่ละคน การมุ่งมั่นแบบเกตโมโนโทนิกเพื่อไม่ให้การแปลที่แสดงถูกถอนคืน โทรศัพท์ขาออกที่แปลแล้ว อย่างไรก็ตาม ผลลัพธ์เสียงของ LiveLingo ใช้เครื่องมือแปลข้อความเป็นเสียงเริ่มต้นของแพลตฟอร์มโฮสต์ (iOS ดั้งเดิมบนอุปกรณ์ Apple) ซึ่งฟังดูไม่เป็นธรรมชาติเท่าเสียงที่สร้างของ Gemini 3.5 Live Translate นั่นคือข้อได้เปรียบจริงที่ Google ส่งมอบวันนี้ เปรียบเทียบข้อกำหนดเคียงข้างกันที่ livelingo.io/compare/google-translate หรือตัวเลขเบนช์มาร์กที่วัดได้ที่ livelingo.io/research/benchmark-2026

8. 8. คำถามที่พบบ่อย

Gemini 3.5 Live Translate คืออะไร?

Gemini 3.5 Live Translate เป็นโมเดลแปลแบบเสียงต่อเสียงแบบสตรีมมิ่งที่ Google เปิดตัวเมื่อ 9 มิถุนายน 2026 สร้างจาก Gemini 3 Pro สร้างเสียงที่แปลแล้วซึ่งเก็บรักษาน้ำเสียง จังหวะ และระดับเสียงของผู้พูด และตรวจจับ 70+ ภาษาอัตโนมัติ มีให้นักพัฒนาผ่าน Gemini Live API และ Google AI Studio (พรีวิวสาธารณะ) ผู้บริโภคผ่านแอป Google Translate บน Android และ iOS และลูกค้า Google Workspace ที่เลือกไว้ผ่าน Google Meet (พรีวิวส่วนตัว)

Gemini 3.5 Live Translate รองรับภาษาอะไรบ้าง?

70+ ภาษา ตรวจจับอัตโนมัติ ใน Google Meet โดยเฉพาะ สิ่งนี้ขยายความครอบคลุมเดิมจาก 5 ภาษาเป็น 70+ ภาษา และรองรับการผสมผสานต้นทาง/เป้าหมายมากกว่า 2,000 แบบภายในการประชุมเดียว

Gemini 3.5 Live Translate ราคาเท่าไหร่?

สำหรับผู้บริโภค แอป Google Translate ฟรี การเข้าถึงนักพัฒนาผ่าน Gemini Live API และ Google AI Studio มีราคาตามอัตรา API มาตรฐานของ Google — ตรวจสอบ Google AI Studio สำหรับราคาปัจจุบัน การเข้าถึงองค์กรผ่าน Google Meet ถูกจำกัดให้กับลูกค้า Google Workspace ที่เลือกไว้ในพรีวิวส่วนตัวตั้งแต่ 9 มิถุนายน 2026

Gemini 3.5 Live Translate จัดการผู้พูดหลายคนอย่างไร?

ตาม Gemini 3.5 Audio model card ที่เผยแพร่โดย Google DeepMind: "เสียงอาจไม่สอดคล้องกัน และเสียงอาจเปลี่ยนหลังจากหยุดนาน เปลี่ยนเพศ หรือติดอยู่กับเสียงเดียวระหว่างเซสชันหลายผู้พูดที่รวดเร็ว" ในทางปฏิบัติ: การสนทนาหนึ่งต่อหนึ่งและการอภิปรายแบบผลัดกันที่มีการหยุดชัดเจนทำงานได้ดี; สถานการณ์หลายผู้พูดที่รวดเร็วเป็นจุดอ่อนที่บันทึกไว้ ไม่มีการระบุผู้พูดแต่ละคนในผลลัพธ์เสียงที่แปลแล้ว

Gemini 3.5 Live Translate ส่งออกข้อความหรือไม่?

ผลลัพธ์หลักเป็นเสียงที่แปลแล้ว บันทึกข้อความมีให้ แต่เป็นเพียงส่วนเสริมของผลลัพธ์เสียง — ไม่มีโหมดข้อความแบบสตรีม และ API โหมดการแปลไม่รับอินพุตข้อความ

ความล่าช้าที่วัดได้ของ Gemini 3.5 Live Translate คือเท่าไหร่?

Google อธิบายระบบว่าอยู่ "ไม่กี่วินาทีหลังผู้พูด" การวัดอิสระโดย LiveLingo Research ในวันเปิดตัวบันทึกความล่าช้าเสียงแรกมัธยฐาน 2,947 มิลลิวินาที (p10–p90: 2,859–3,104 มิลลิวินาที) ใน 120 คำพูดทดสอบ — ความล่าช้าการพูดคงที่ประมาณ 3 วินาที แหล่งที่มา: livelingo.io/research/benchmark-2026

Gemini 3.5 Live Translate เปิดตัวเมื่อไหร่?

Google ประกาศและเริ่มเปิดให้ใช้ Gemini 3.5 Live Translate เมื่อ 9 มิถุนายน 2026 ใน Gemini Live API และ Google AI Studio (พรีวิวสาธารณะนักพัฒนา) แอป Google Translate บน Android และ iOS (เปิดให้ใช้ทั่วโลกตั้งแต่วันนั้น) และ Google Meet (พรีวิวส่วนตัวสำหรับลูกค้า Workspace ที่เลือกไว้)

9. 9. แหล่งอ้างอิง

  • Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Google blog, June 9, 2026. blog.google
  • Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
  • MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, June 9, 2026. marktechpost.com
  • LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, June 9, 2026. livelingo.io/research/benchmark-2026

พร้อมทำลายกำแพงภาษาแล้วหรือยัง?

ลอง LiveLingo ฟรี — แปลเสียงแบบเรียลไทม์ 5 นาทีทุกวัน ไม่ต้องใส่บัตรเครดิต อัปเกรดเป็น Pro สำหรับโทรแปลภาษา บันทึกประชุม AI และใช้งาน 300 นาทีต่อเดือน

ลอง LiveLingo ฟรี
Gemini 3.5 Live Translate: คุณสมบัติ ข้อจำกัด วิธีใช้งาน (2026) | LiveLingo