Gemini 3.5 Live Translate: Tính năng, giới hạn, cách hoạt động (2026)

Các chuyên gia đa dạng trong cuộc gọi video đa ngôn ngữ, với lời nói được dịch liên tục giữa các người nói.

1. 1. Gemini 3.5 Live Translate là gì

Gemini 3.5 Live Translate là một mô hình dịch giọng nói sang giọng nói theo luồng dữ liệu mà Google công bố vào ngày 9 tháng 6 năm 2026. Hai đặc điểm khiến nó khác biệt so với các sản phẩm dịch thuật trước đây.

Thứ nhất, đây là hệ thống âm thanh sang âm thanh thay vì quy trình cũ giọng nói-sang-văn bản-sang-dịch thuật-sang-văn bản-sang-giọng nói. Mô hình nhận âm thanh nguồn được truyền theo từng đoạn 100 mili giây và tạo ra giọng nói đã dịch làm đầu ra. Bản ghi văn bản có sẵn, nhưng chỉ như một phần phụ của đầu ra giọng nói — không có chế độ văn bản trực tiếp và không có phân biệt người nói trong âm thanh đã dịch.

Thứ hai, giọng nói được tạo ra được thiết kế để bảo tồn ngữ điệu của người nói. Thông báo của Google mô tả đầu ra giữ lại ngữ điệu, nhịp độ và cao độ của người nói. Trên thực tế, điều này tạo ra một giọng nói dịch thuật nghe tự nhiên hơn đáng kể so với một công cụ chuyển văn bản thành giọng nói thông thường đọc bản dịch — một lợi thế thực sự so với các hệ thống dịch giọng nói có đầu ra âm thanh chạy qua lớp TTS tiêu chuẩn.

Mô hình được xây dựng trên Gemini 3 Pro. Theo thẻ mô hình Gemini 3.5 Audio được xuất bản bởi Google DeepMind, nó nhận đầu vào âm thanh với cửa sổ ngữ cảnh lên đến 128K token và tạo ra đầu ra âm thanh + văn bản lên đến 64K token. Nó tự động phát hiện hơn 70 ngôn ngữ, bao gồm việc chuyển đổi ngôn ngữ nhanh chóng giữa các người nói, mặc dù việc phát hiện đó có những điểm yếu được ghi nhận (được đề cập trong Phần 4).

Việc ra mắt bao gồm ba bề mặt sản phẩm song song: truy cập dành cho nhà phát triển qua Gemini Live API và Google AI Studio (bản xem trước công khai từ ngày 9 tháng 6 năm 2026); truy cập người tiêu dùng thông qua ứng dụng Google Translate trên Android và iOS, triển khai toàn cầu bắt đầu từ ngày đó, với "chế độ nghe" mới trên Android; và truy cập doanh nghiệp thông qua Google Meet trong bản xem trước riêng tư cho khách hàng Google Workspace được chọn, nơi nó mở rộng phạm vi dịch thuật của Meet từ 5 ngôn ngữ lên 70+ và hỗ trợ hơn 2.000 kết hợp nguồn/đích trong một cuộc họp.

2. 2. Cách hoạt động: Kiến trúc âm thanh sang âm thanh và bảo tồn ngữ điệu

Ba lựa chọn kiến trúc phân biệt Gemini 3.5 Live Translate với các hệ thống dịch trực tiếp trước đây.

Giọng nói sang giọng nói, không phải giọng nói sang văn bản sang giọng nói

Các quy trình truyền thống chạy âm thanh qua mô hình giọng nói sang văn bản trực tiếp, đưa bản ghi vào mô hình dịch máy, sau đó tổng hợp bản dịch thông qua mô hình văn bản sang giọng nói riêng biệt. Mỗi giai đoạn thêm độ trễ và tích lũy lỗi. Gemini 3.5 Live Translate gộp các bước này thành một mô hình âm thanh. Sự đánh đổi: đầu ra là âm thanh vĩnh viễn, không phải văn bản có thể chỉnh sửa — một khi một từ được nói ra, nó không thể được sửa đổi giữa câu.

Truyền liên tục, không phải theo lượt

Thông báo của Google định khung mô hình là một mô hình "cân bằng sự đánh đổi giữa việc chờ ngữ cảnh để cải thiện chất lượng và dịch ngay lập tức để đồng bộ với người nói." Các sản phẩm tiêu dùng trước đây như chế độ Hội thoại trước đây của Google Translate là theo lượt: nhấn, nói, chờ hệ thống hoàn thiện và phát ra bản dịch, sau đó để bên kia nhấn. Gemini 3.5 Live Translate phát ra giọng nói đã dịch liên tục trong khi người nói nguồn vẫn đang nói, với Google mô tả độ trễ "vài giây."

Chuyển giao ngữ điệu

Mô hình được thiết kế để mang các đặc điểm giọng nói của người nói nguồn — ngữ điệu, nhịp độ, nhấn mạnh, cao độ — vào âm thanh đã dịch. Đây là lý do kỹ thuật chính khiến đầu ra nghe tự nhiên thay vì máy móc. Đây cũng là nguồn gốc của những hạn chế về tính nhất quán giọng nói mà thẻ mô hình của Google tiết lộ (Phần 4).

Trên bề mặt nhà phát triển, mỗi phiên sử dụng âm thanh PCM 16-bit thô ở 16 kHz mono làm đầu vào và tạo ra âm thanh PCM 24 kHz mono làm đầu ra, được gửi theo từng đoạn 100 mili giây. Tất cả âm thanh được tạo ra đều mang watermark SynthID của Google — một chữ ký không thể nhận thấy được dệt vào dạng sóng cho phép các hệ thống downstream xác định âm thanh là do máy tạo ra.

Điện thoại thông minh hiển thị giao diện dịch giọng nói trực tiếp với dạng sóng âm thanh và lựa chọn ngôn ngữ.

3. 3. Những điểm mạnh nhất của Gemini 3.5 Live Translate

Năm điểm mạnh của sản phẩm hiện ra ngay lập tức khi so sánh Gemini 3.5 Live Translate với các đối thủ.

Giọng nói dịch thuật nghe tự nhiên. Giọng nói bảo tồn ngữ điệu là lợi thế rõ ràng nhất so với các hệ thống dịch giọng nói có đầu ra âm thanh qua công cụ TTS thông thường. Nếu bạn đã sử dụng ứng dụng dịch giọng nói có âm thanh dịch thuật nghe như một người kể chuyện đơn điệu đọc một chuỗi từ, sự tương phản là ngay lập tức. Gemini 3.5 Live Translate tốt hơn đáng kể ở đây, và sự khác biệt có thể nghe thấy ngay từ câu đầu tiên.

Sự đơn giản âm thanh sang âm thanh. Xây dựng ứng dụng dịch giọng nói truyền thống có nghĩa là nối chuỗi mô hình STT trực tiếp (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), mô hình dịch thuật và công cụ TTS — và quản lý ngữ nghĩa phát ra từng phần của mỗi cái. Gemini 3.5 Live Translate thay thế chuỗi đó bằng một lệnh gọi API, đơn giản hóa cả mã ứng dụng và bề mặt lỗi.

Tự động phát hiện ngôn ngữ quy mô lớn. 70+ ngôn ngữ được tự động phát hiện, không cần người dùng đặt cặp ngôn ngữ trước. Định vị của Google nhấn mạnh các trường hợp sử dụng như cuộc họp nhiều bên nơi người nói chuyển đổi ngôn ngữ giữa cuộc trò chuyện.

Phân phối. Được tích hợp trực tiếp vào ứng dụng Google Translate cho người tiêu dùng và Google Meet. Đối với người dùng cuối, chi phí cài đặt và khám phá gần như bằng không — họ đã có ứng dụng. Đối với khách hàng Meet, dịch thuật đến như một công tắc tính năng bên trong quy trình làm việc đã được sử dụng.

Đầu ra có watermark. Watermark SynthID làm cho giọng nói được tạo ra có thể nhận dạng là do AI tạo ra cho các trường hợp sử dụng tuân thủ downstream, điều này hữu ích trong các ngành được quy định cần theo dõi nội dung do AI tạo ra.

4. 4. Những gì thẻ mô hình của chính Google thừa nhận là hạn chế

Thẻ mô hình Gemini 3.5 Audio được xuất bản bởi Google DeepMind ghi nhận các hạn chế đã biết cụ thể của Gemini 3.5 Live Translate. Trích dẫn trực tiếp từ thẻ:

Phát hiện ngôn ngữ

"Phát hiện ngôn ngữ có thể gặp khó khăn với giọng không phải người bản xứ, các ngôn ngữ tương tự, hoặc chuyển đổi ngôn ngữ nhanh chóng." Ý nghĩa thực tế: nếu người nói có giọng mạnh, hoặc ngôn ngữ nguồn gần với ngôn ngữ liên quan (Bồ Đào Nha vs Tây Ban Nha, Na Uy vs Thụy Điển), hoặc cuộc trò chuyện chuyển đổi ngôn ngữ nhanh chóng, bộ phát hiện có thể chọn sai ngôn ngữ nguồn và dịch tương ứng.

Tính nhất quán giọng nói trong phiên nhiều người nói

"Giọng nói có thể không nhất quán, và giọng nói có thể thay đổi sau khi tạm dừng dài, thay đổi giới tính, hoặc bị kẹt ở một giọng nói trong phiên nhiều người nói nhanh chóng." Đây là hạn chế có ý nghĩa thực tế nhất đối với nhiều trường hợp sử dụng. Trong cuộc họp với nhiều người nói luân phiên nhanh chóng, mô hình có thể tạo ra tất cả đầu ra dịch thuật bằng một giọng nói — mất đi việc phân biệt người nói mà người nghe dựa vào để theo dõi cuộc trò chuyện.

Lọc tiếng ồn

"Được thiết kế để lọc tiếng ồn nền, nhưng không phải tất cả âm thanh nền đều có thể được bỏ qua." Môi trường thế giới thực vẫn sẽ rò rỉ qua trong một số điều kiện.

Ràng buộc chế độ dịch thuật (API nhà phát triển)

Theo phạm vi ra mắt trích dẫn tài liệu nhà phát triển của Google, "đầu vào văn bản không được hỗ trợ trong chế độ dịch thuật" và mô hình "bỏ việc sử dụng công cụ và hướng dẫn hệ thống trong chế độ này." Đối với nhà phát triển, lệnh gọi API dịch thuật là một bề mặt bị ràng buộc — bạn không thể gửi văn bản, bạn không thể sử dụng hệ sinh thái công cụ Gemini rộng hơn, và bạn không thể tiêm lệnh hệ thống. Dịch vào, dịch ra.

5. 5. Đo lường độc lập từ LiveLingo 2026 Benchmark

LiveLingo Research đã đánh giá Gemini 3.5 Live Translate vào ngày ra mắt (9 tháng 6 năm 2026) theo cùng giao thức được sử dụng cho benchmark ban đầu của Google Cloud STT v2 + Translation v3, Azure Speech Translation, và Whisper-large + GPT-4o-mini. Phụ lục đầy đủ được xuất bản tại livelingo.io/research/benchmark-2026#comprehension-gemini-live; các con số chính như dưới đây.

Độ trung thực hiểu biết tổng hợp: 4.93 / 5 trên 120 câu nói và bốn cặp ngôn ngữ (en→es, en→zh-CN, en→ja, en→de). Đây là kết quả mạnh nhất trong số bốn hệ thống cạnh tranh trên benchmark; điểm gần nhất tiếp theo là 4.77 (Google Cloud Translation v3).

Độ trễ âm thanh đầu tiên: trung vị 2,947 ms từ khi bắt đầu nói đến âm thanh dịch đầu tiên (p10–p90: 2,859–3,104 ms). Đây là độ trễ nói không đổi ~3 giây, phù hợp với định khung "vài giây sau" của Google.

Đầu ra chỉ là giọng nói đã dịch. API không có chế độ văn bản trực tiếp và không có phân biệt theo người nói. Bản ghi văn bản có sẵn như một phần phụ của đầu ra giọng nói. Đầu ra giọng nói không thể được sửa đổi sau khi được phát ra.

Âm thanh chuyển đổi mã. Trên một đoạn tin tức tiếng Quan Thoại chuyển sang phỏng vấn đường phố tiếng Anh ở giây thứ 86, điểm chuẩn LiveLingo ghi nhận rằng đầu ra dịch thuật dừng lại ở điểm chuyển đổi trong mọi lần chạy: lời nói đã có trong ngôn ngữ đầu ra không được dịch cũng không được phiên âm, do đó 34 giây nội dung cuối cùng (khoảng 28% của đoạn clip) biến mất một cách im lặng đối với người nghe mà không có lỗi nào được hiển thị. gpt-realtime-translate của OpenAI cũng cho thấy hành vi tương tự trên cùng đoạn clip, và OpenAI tài liệu hóa việc bỏ qua lời nói ngôn ngữ đầu ra là có chủ ý; đây là một giới hạn cấu trúc của các trình dịch từ lời nói sang lời nói hiện tại đối với âm thanh đa ngôn ngữ.

Đảo ngược thực tế trên cú pháp giải quyết muộn. Trên clip diễn thuyết kinh doanh tiếng Trung, một câu mô tả tăng trưởng doanh số 15% được hiển thị bằng tiếng Anh như một mục tiêu tăng doanh số 15%. Đây là lớp lỗi mà cam kết âm thanh giữa câu không thể đảo ngược tạo ra khi ngôn ngữ nguồn hoãn yếu tố mang ý nghĩa (cực tính, tham chiếu thời gian, chủ ngữ) cho đến cuối câu.

Đây là các đo lường độc lập, không phải số liệu của chính Google; phương pháp và dữ liệu thô theo từng câu nói có trong phụ lục đã xuất bản.

6. 6. Cách truy cập Gemini 3.5 Live Translate

Người tiêu dùng — Ứng dụng Google Translate

Cập nhật ứng dụng Google Translate lên phiên bản mới nhất trên Android hoặc iOS. Chế độ Live Translate đang triển khai toàn cầu bắt đầu từ ngày 9 tháng 6 năm 2026 — tính khả dụng phụ thuộc vào lịch trình triển khai cửa hàng trong khu vực của bạn. Trên Android, "chế độ nghe" mới cho phép bạn nghe giọng nói dịch thuật trực tiếp qua loa tai thiết bị.

Nhà phát triển — Gemini Live API + Google AI Studio

Mô hình có sẵn trong bản xem trước công khai thông qua Gemini Live API và thông qua Google AI Studio. Theo phạm vi ra mắt, các ràng buộc tích hợp là cụ thể: chỉ đầu vào âm thanh (không có đầu vào văn bản trong chế độ dịch thuật), không sử dụng công cụ hoặc hướng dẫn hệ thống, đầu vào PCM 16-bit thô 16 kHz mono được chia thành từng đoạn 100 ms, đầu ra PCM 24 kHz. Tham khảo Google AI Studio để biết hạn ngạch và giá cả hiện tại.

Doanh nghiệp — Google Meet

Gemini 3.5 Live Translate đang trong bản xem trước riêng tư cho khách hàng Google Workspace được chọn tính đến ngày 9 tháng 6 năm 2026. Khi được kích hoạt, nó mở rộng phạm vi dịch thuật của Meet từ 5 ngôn ngữ lên 70+ ngôn ngữ và hỗ trợ 2.000+ kết hợp nguồn/đích trong một cuộc họp. Tính khả dụng là triển khai, không phải toàn cầu.

7. 7. Khi nào sử dụng Gemini 3.5 — và khi nào công cụ khác phù hợp hơn

Khi Gemini 3.5 Live Translate là lựa chọn đúng

Bạn muốn giọng nói đã dịch, không phải văn bản đã dịch. Đầu ra giọng nói tự nhiên là lợi thế lớn nhất của sản phẩm.
Bạn đã ở trong ứng dụng Google Translate hoặc Google Meet. Tích hợp không tốn chi phí để khám phá và sử dụng.
Cuộc trò chuyện của bạn là một-đối-một, hoặc có việc luân phiên rõ ràng với khoảng tạm dừng giữa các người nói. Những hạn chế về tính nhất quán giọng nói mà thẻ mô hình của Google tiết lộ yếu hơn trong những ngữ cảnh này.
Bạn đang xây dựng ứng dụng nhà phát triển nơi việc đơn giản hóa chuỗi STT → MT → TTS thành một API quan trọng hơn việc kiểm soát chi tiết từng giai đoạn.
Bạn có thể sống mà không có phân biệt người nói trong đầu ra âm thanh, và không có bản ghi văn bản trực tiếp.

Khi bạn có thể thích công cụ khác

Bạn cần văn bản trực tiếp cùng với hoặc thay vì âm thanh. Văn bản trực tiếp là thứ mà hầu hết giao diện sản xuất hiển thị trên màn hình trong phụ đề trực tiếp, dịch hội nghị và các tình huống hỗ trợ tiếp cận. Văn bản của Gemini 3.5 Live Translate chỉ là phần phụ.
Bạn cần phân biệt theo người nói trong đầu ra dịch thuật. Tiết lộ "có thể bị kẹt ở một giọng nói trong phiên nhiều người nói nhanh chóng" của thẻ mô hình làm cho điều này trở thành rủi ro thực sự cho các cuộc họp.
Bạn dịch các cuộc trò chuyện nơi tính ổn định quan trọng hơn tính biểu cảm. Đầu ra âm thanh không thể được sửa đổi giữa câu, vì vậy trên các ngôn ngữ có cú pháp giải quyết muộn (cực tính tiếng Trung ở cuối câu, động từ tiếng Nhật ở cuối câu), cam kết sớm có thể đảo ngược ý nghĩa. Phụ lục benchmark ghi nhận một trường hợp như vậy.
Bạn cần cuộc gọi điện thoại đã dịch — quay số PSTN với dịch thuật chạy trên đường dây. Gemini Live API là một khối xây dựng cho nhà phát triển, không phải nhà cung cấp cuộc gọi điện thoại.

Một sự thừa nhận trung thực. LiveLingo, sản phẩm xuất bản hướng dẫn này, phù hợp với cột thứ hai trên hầu hết các khía cạnh này: đầu ra văn bản + âm thanh trực tiếp, phân biệt theo người nói, cam kết có cổng đơn điệu để bản dịch hiển thị không bao giờ bị rút lại, cuộc gọi điện thoại dịch thuật ra ngoài. Tuy nhiên, đầu ra âm thanh của LiveLingo sử dụng công cụ chuyển văn bản thành giọng nói mặc định của nền tảng máy chủ (iOS native trên thiết bị Apple), nghe kém tự nhiên hơn giọng nói được tạo ra của Gemini 3.5 Live Translate. Đó là một lợi thế thực sự mà Google đã vận chuyển ngày hôm nay. So sánh thông số kỹ thuật cạnh nhau tại livelingo.io/compare/google-translate, hoặc số liệu benchmark đo lường tại livelingo.io/research/benchmark-2026.

8. 8. Câu hỏi thường gặp

Gemini 3.5 Live Translate là gì?

Gemini 3.5 Live Translate là một mô hình dịch giọng nói sang giọng nói trực tiếp được Google phát hành vào ngày 9 tháng 6 năm 2026. Nó được xây dựng trên Gemini 3 Pro, tạo ra âm thanh dịch thuật bảo tồn ngữ điệu, nhịp độ và cao độ của người nói, và tự động phát hiện 70+ ngôn ngữ. Nó có sẵn cho nhà phát triển qua Gemini Live API và Google AI Studio (bản xem trước công khai), cho người tiêu dùng qua ứng dụng Google Translate trên Android và iOS, và cho khách hàng Google Workspace được chọn qua Google Meet (bản xem trước riêng tư).

Gemini 3.5 Live Translate hỗ trợ những ngôn ngữ nào?

Hơn 70 ngôn ngữ, được tự động phát hiện. Trong Google Meet cụ thể, điều này mở rộng phạm vi trước đây từ 5 ngôn ngữ lên 70+ ngôn ngữ và hỗ trợ hơn 2.000 kết hợp nguồn/đích trong một cuộc họp.

Gemini 3.5 Live Translate có giá bao nhiêu?

Đối với người tiêu dùng, ứng dụng Google Translate miễn phí. Truy cập nhà phát triển qua Gemini Live API và Google AI Studio được định giá theo tỷ lệ API tiêu chuẩn của Google — kiểm tra Google AI Studio để biết giá hiện tại. Truy cập doanh nghiệp qua Google Meet được giới hạn cho khách hàng Google Workspace được chọn trong bản xem trước riêng tư tính đến ngày 9 tháng 6 năm 2026.

Gemini 3.5 Live Translate xử lý nhiều người nói như thế nào?

Theo thẻ mô hình Gemini 3.5 Audio được xuất bản bởi Google DeepMind: "Giọng nói có thể không nhất quán, và giọng nói có thể thay đổi sau khi tạm dừng dài, thay đổi giới tính, hoặc bị kẹt ở một giọng nói trong phiên nhiều người nói nhanh chóng." Thực tế: cuộc trò chuyện một-đối-một và thảo luận luân phiên với khoảng tạm dừng rõ ràng hoạt động tốt; các tình huống nhiều người nói nhanh chóng là điểm yếu được ghi nhận. Không có phân biệt theo người nói trong đầu ra âm thanh dịch thuật.

Gemini 3.5 Live Translate có xuất ra văn bản không?

Đầu ra chính là giọng nói dịch thuật. Bản ghi văn bản có sẵn, nhưng chỉ như một phần phụ của đầu ra giọng nói — không có chế độ văn bản trực tiếp, và API chế độ dịch thuật không nhận đầu vào văn bản.

Độ trễ đo lường của Gemini 3.5 Live Translate là bao nhiêu?

Google mô tả hệ thống là duy trì "vài giây sau người nói." Đo lường độc lập bởi LiveLingo Research vào ngày ra mắt ghi nhận độ trễ âm thanh đầu tiên trung vị 2,947 ms (p10–p90: 2,859–3,104 ms) trên 120 câu nói thử nghiệm — độ trễ nói không đổi khoảng 3 giây. Nguồn: livelingo.io/research/benchmark-2026.

Gemini 3.5 Live Translate được phát hành khi nào?

Google đã công bố và bắt đầu triển khai Gemini 3.5 Live Translate vào ngày 9 tháng 6 năm 2026, trên Gemini Live API và Google AI Studio (bản xem trước công khai nhà phát triển), ứng dụng Google Translate trên Android và iOS (triển khai toàn cầu bắt đầu từ ngày đó), và Google Meet (bản xem trước riêng tư cho khách hàng Workspace được chọn).

9. 9. Nguồn

Google. Dịch giọng nói trôi chảy, tự nhiên với Gemini 3.5 Live Translate. Blog Google, 9 tháng 6 năm 2026. blog.google
Google DeepMind. Gemini 3.5 Audio (Live Translate) — Thẻ mô hình. deepmind.google
MarkTechPost. Google phát hành Gemini 3.5 Live Translate, một mô hình âm thanh giọng nói sang giọng nói trực tiếp bao gồm 70+ ngôn ngữ trên Meet, Translate và Live API, 9 tháng 6 năm 2026. marktechpost.com
LiveLingo Research. Benchmark dịch giọng nói thời gian thực 2026 — Phụ lục Gemini 3.5 Live Translate, 9 tháng 6 năm 2026. livelingo.io/research/benchmark-2026