Gemini 3.5 Live Translate: Funkcje, Ograniczenia, Jak Działa (2026)

Różnorodni profesjonaliści na wielojęzycznej rozmowie wideo, z tłumaczeniem mowy płynącym nieprzerwanie między rozmówcami.

1. 1. Czym Jest Gemini 3.5 Live Translate

Gemini 3.5 Live Translate to strumieniowy model tłumaczenia mowy na mowę, który Google ogłosił 9 czerwca 2026 roku. Dwie cechy odróżniają go od wcześniejszych produktów tłumaczeniowych.

Po pierwsze, to audio-do-audio zamiast starszego pipeline'u mowa-do-tekstu-do-tłumaczenia-do-tekstu-do-mowy. Model przyjmuje strumieniowane audio źródłowe w 100-milisekundowych fragmentach i produkuje przetłumaczoną mowę jako wynik. Transkrypty tekstowe są dostępne, ale tylko jako dodatek do mówionego wyniku — nie ma trybu strumieniowego tekstu ani atrybucji mówcy w przetłumaczonym audio.

Po drugie, generowany głos jest zaprojektowany tak, aby zachować prozodię mówcy. Ogłoszenie Google opisuje wynik zachowujący intonację, tempo i wysokość głosu mówcy. W praktyce daje to przetłumaczony głos brzmiący znacznie bardziej naturalnie niż generyczny silnik text-to-speech czytający tłumaczenie na głos — prawdziwa przewaga nad systemami tłumaczenia mowy, których audio wychodzi przez standardową warstwę TTS.

Model jest oparty na Gemini 3 Pro. Według karty modelu Gemini 3.5 Audio opublikowanej przez Google DeepMind, przyjmuje wejście audio z oknem kontekstu do 128K tokenów i produkuje wynik audio + tekst do 64K tokenów. Automatycznie wykrywa ponad 70 języków, w tym szybkie przełączenia języków między mówcami, choć to wykrywanie ma udokumentowane słabości (omówione w Sekcji 4).

Premiera obejmuje trzy powierzchnie produktowe równolegle: dostęp dla deweloperów przez Gemini Live API i Google AI Studio (publiczny podgląd od 9 czerwca 2026); dostęp konsumencki przez aplikację Google Translate na Android i iOS, wdrażany globalnie od tego dnia, z nowym "trybem słuchania" na Android; oraz dostęp korporacyjny przez Google Meet w prywatnym podglądzie dla wybranych klientów Google Workspace, gdzie rozszerza pokrycie tłumaczeniowe Meet z 5 języków do 70+ i obsługuje ponad 2000 kombinacji źródło/cel w ramach jednego spotkania.

2. 2. Jak To Działa: Architektura Audio-do-Audio i Zachowanie Prozodii

Trzy wybory architektoniczne odróżniają Gemini 3.5 Live Translate od wcześniejszych systemów strumieniowego tłumaczenia.

Mowa-do-mowy, nie mowa-do-tekstu-do-mowy

Tradycyjne pipeline'y przepuszczają audio przez strumieniowy model mowy-do-tekstu, podają transkrypt do modelu tłumaczenia maszynowego, następnie syntetyzują tłumaczenie przez oddzielny model tekstu-do-mowy. Każdy etap dodaje opóźnienie i kumuluje błędy. Gemini 3.5 Live Translate składa te kroki w jeden model audio. Kompromis: wynik to stałe audio, nie edytowalny tekst — gdy słowo zostanie wypowiedziane, nie można go poprawić w połowie wypowiedzi.

Ciągłe strumieniowanie, nie oparte na turach

Ogłoszenie Google przedstawia model jako taki, który "równoważy kompromis między czekaniem na kontekst dla poprawy jakości a natychmiastowym tłumaczeniem, aby pozostać zsynchronizowanym z mówcą." Wcześniejsze produkty konsumenckie jak poprzedni tryb Konwersacji Google Translate były oparte na turach: dotknij, mów, czekaj aż system sfinalizuje i wyemituje tłumaczenie, następnie pozwól drugiej stronie dotknąć. Gemini 3.5 Live Translate emituje przetłumaczoną mowę ciągle, gdy mówca źródłowy nadal mówi, z Google opisującym opóźnienie "kilku sekund."

Transfer prozodii

Model jest zaprojektowany do przenoszenia charakterystyk głosowych mówcy źródłowego — intonacji, tempa, akcentu, wysokości — do przetłumaczonego audio. To główny techniczny powód, dla którego wynik brzmi naturalnie, a nie robotycznie. To także źródło ograniczeń spójności głosu, które ujawnia karta modelu Google (Sekcja 4).

Na powierzchni deweloperskiej każda sesja używa surowego 16-bitowego audio PCM przy 16 kHz mono jako wejście i produkuje 24 kHz mono PCM audio jako wynik, wysyłane w 100-milisekundowych fragmentach. Całe generowane audio nosi znak wodny SynthID Google — niezauważalną sygnaturę wplecioną w falę, która pozwala systemom downstream zidentyfikować audio jako wygenerowane maszynowo.

Smartfon wyświetlający interfejs strumieniowego tłumaczenia głosowego z falami audio i wyborem języka.

3. 3. Gdzie Gemini 3.5 Live Translate Jest Najsilniejszy

Pięć mocnych stron produktu pokazuje się natychmiast przy porównywaniu Gemini 3.5 Live Translate z konkurencją.

Naturalnie brzmiąca przetłumaczona mowa. Głos zachowujący prozodię to najwyraźniejsza przewaga nad systemami tłumaczenia mowy, których audio wychodzi przez generyczny silnik TTS. Jeśli używałeś aplikacji do tłumaczenia głosowego, której przetłumaczone audio brzmi jak płaski narrator czytający ciąg słów, kontrast jest natychmiastowy. Gemini 3.5 Live Translate jest tu znacznie lepszy, a różnica jest słyszalna już w pierwszym zdaniu.

Prostota audio-do-audio. Budowanie aplikacji do tłumaczenia mowy tradycyjnie oznaczało łączenie strumieniowego modelu STT (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), modelu tłumaczenia i silnika TTS — oraz zarządzanie semantyką częściowych emisji każdego z nich. Gemini 3.5 Live Translate zastępuje ten łańcuch jednym wywołaniem API, upraszczając zarówno kod aplikacji, jak i powierzchnię awarii.

Automatyczne wykrywanie języka na skalę. 70+ języków wykrywanych automatycznie, bez potrzeby ustawiania przez użytkownika pary językowej z góry. Pozycjonowanie Google podkreśla przypadki użycia jak spotkania wielostronne, gdzie mówcy przełączają języki w połowie rozmowy.

Dystrybucja. Wbudowany bezpośrednio w aplikację konsumencką Google Translate i Google Meet. Dla użytkowników końcowych koszt instalacji i odkrycia jest bliski zeru — już mają aplikację. Dla klientów Meet tłumaczenie pojawia się jako przełącznik funkcji wewnątrz przepływu pracy już używanego.

Znak wodny na wyjściu. Znak wodny SynthID czyni generowaną mowę identyfikowalną jako wygenerowaną przez AI dla przypadków użycia zgodności downstream, co jest przydatne w regulowanych branżach potrzebujących śledzenia treści generowanych przez AI.

4. 4. Co Własna Karta Modelu Google Przyznaje Jako Ograniczenia

Karta modelu Gemini 3.5 Audio opublikowana przez Google DeepMind dokumentuje konkretne znane ograniczenia Gemini 3.5 Live Translate. Cytując kartę bezpośrednio:

Wykrywanie języka

"Wykrywanie języka może mieć problemy z akcentami nie-natywnymi, podobnymi językami lub szybkimi przełączeniami języków." Praktyczna implikacja: jeśli mówca ma silny akcent, lub język źródłowy jest bliski spokrewnionemu językowi (portugalski vs. hiszpański, norweski vs. szwedzki), lub rozmowa szybko przełącza języki, detektor może wybrać zły język źródłowy i odpowiednio tłumaczyć.

Spójność głosu w sesjach wielomówcowych

"Głosy mogą być niespójne, a głosy mogą się zmieniać po długich pauzach, zmieniać płeć lub utknąć na jednym głosie podczas szybkich sesji wielomówcowych." To najbardziej praktycznie znaczące ograniczenie dla wielu przypadków użycia. Na spotkaniu z kilkoma mówcami robiącymi szybkie tury, model może produkować całe przetłumaczone wyjście jednym głosem — tracąc atrybucję mówcy, na której słuchacze polegają, aby śledzić rozmowę.

Filtrowanie szumu

"Zaprojektowany do filtrowania szumu tła, ale nie wszystkie audio tła może być ignorowane." Środowiska rzeczywiste nadal będą przeciekać w niektórych warunkach.

Ograniczenia trybu tłumaczenia (API deweloperskie)

Według relacji z premiery cytującej dokumentację deweloperską Google, "wejście tekstowe nie jest obsługiwane w trybie tłumaczenia" i model "porzuca użycie narzędzi i instrukcje systemowe w tym trybie." Dla deweloperów wywołanie API tłumaczenia to ograniczona powierzchnia — nie można wysyłać tekstu, nie można używać szerszego ekosystemu narzędzi Gemini i nie można wstrzykiwać promptów systemowych. Tłumaczenie na wejściu, tłumaczenie na wyjściu.

5. 5. Niezależne Pomiary z Benchmarku LiveLingo 2026

LiveLingo Research ocenił Gemini 3.5 Live Translate w dniu premiery (9 czerwca 2026) według tego samego protokołu używanego dla oryginalnego benchmarku Google Cloud STT v2 + Translation v3, Azure Speech Translation i Whisper-large + GPT-4o-mini. Pełny dodatek jest opublikowany na livelingo.io/research/benchmark-2026#comprehension-gemini-live; główne liczby są poniżej.

Kompozyt wierności zrozumienia: 4,93 / 5 na 120 wypowiedziach i czterech parach językowych (en→es, en→zh-CN, en→ja, en→de). To najsilniejszy wynik spośród czterech konkurujących systemów w benchmarku; najbliższy wynik to 4,77 (Google Cloud Translation v3).

Opóźnienie pierwszego audio: mediana 2947 ms od początku mowy do pierwszego przetłumaczonego audio (p10–p90: 2859–3104 ms). To stałe ~3-sekundowe opóźnienie mówienia, zgodne z określeniem Google "kilka sekund za."

Wyjście to tylko przetłumaczona mowa. API nie ma trybu strumieniowego tekstu ani atrybucji per-mówca. Transkrypty tekstowe są dostępne jako dodatek do mówionego wyjścia. Mówione wyjście nie może być poprawione po emisji.

Audio z przełączaniem kodów. Na mandaryńskim klipie informacyjnym, który po 86 sekundach przełącza się na angielskie wywiady uliczne, benchmark LiveLingo odnotował, że wyjście tłumaczenia zatrzymuje się przy przełączeniu w każdym uruchomieniu: mowa już w języku wyjściowym nie jest ani tłumaczona, ani transkrybowana, więc ostatnie 34 sekundy treści (~28% klipu) cicho znikają dla słuchacza bez zgłaszania błędu. gpt-realtime-translate firmy OpenAI wykazuje to samo zachowanie na tym samym klipie, a OpenAI dokumentuje pomijanie mowy w języku wyjściowym jako zamierzone; jest to strukturalne ograniczenie obecnych tłumaczy mowy na mowę w przypadku audio z mieszanymi językami.

Inwersja faktyczna na składni późno-rozwiązującej. Na klipie mandaryńskiej mowy biznesowej zdanie opisujące 15% wzrost sprzedaży zostało wyrenderowane w angielskim jako cel zwiększenia sprzedaży o 15%. To klasa błędu, którą produkuje nieodwracalne zobowiązanie audio w połowie zdania, gdy język źródłowy odkłada element niosący znaczenie (polarność, odniesienie czasowe, podmiot) do późna w zdaniu.

To niezależne pomiary, nie własne liczby Google; metodologia i surowe dane per-wypowiedź są w opublikowanym dodatku.

6. 6. Jak Uzyskać Dostęp do Gemini 3.5 Live Translate

Konsument — aplikacja Google Translate

Zaktualizuj aplikację Google Translate do najnowszej wersji na Android lub iOS. Tryb Live Translate jest wdrażany globalnie od 9 czerwca 2026 — dostępność zależy od harmonogramu wdrażania sklepu w Twoim regionie. Na Android nowy "tryb słuchania" pozwala słyszeć przetłumaczoną mowę bezpośrednio przez słuchawkę urządzenia.

Deweloper — Gemini Live API + Google AI Studio

Model jest dostępny w publicznym podglądzie przez Gemini Live API i przez Google AI Studio. Według relacji z premiery ograniczenia integracji są konkretne: tylko wejście audio (brak wejścia tekstowego w trybie tłumaczenia), brak użycia narzędzi lub instrukcji systemowych, surowe 16-bitowe PCM 16 kHz mono wejście podzielone na 100 ms, 24 kHz PCM wyjście. Odnieś się do Google AI Studio dla aktualnych limitów i cen.

Przedsiębiorstwo — Google Meet

Gemini 3.5 Live Translate jest w prywatnym podglądzie dla wybranych klientów Google Workspace od 9 czerwca 2026. Gdzie włączony, rozszerza pokrycie tłumaczeniowe Meet z 5 języków do 70+ języków i obsługuje 2000+ kombinacji źródło/cel w ramach jednego spotkania. Dostępność jest stopniowa, nie uniwersalna.

7. 7. Kiedy Używać Gemini 3.5 — a Kiedy Inne Narzędzie Pasuje Lepiej

Kiedy Gemini 3.5 Live Translate to właściwy wybór

Chcesz przetłumaczonej mowy, nie przetłumaczonego tekstu. Naturalny głos to największa przewaga produktu.
Jesteś już w aplikacji Google Translate lub Google Meet. Integracja to zerowy koszt odkrycia i użycia.
Twoje rozmowy to jeden-na-jeden lub mają wyraźne kolejkowanie z pauzami między mówcami. Ograniczenia spójności głosu ujawniane przez kartę modelu Google są słabsze w tych kontekstach.
Budujesz aplikację deweloperską, gdzie uproszczenie łańcucha STT → MT → TTS do jednego API ma większe znaczenie niż szczegółowa kontrola nad każdym etapem.
Możesz żyć bez atrybucji mówcy w wyjściu audio i bez strumieniowych transkryptów tekstowych.

Kiedy możesz preferować inne narzędzie

Potrzebujesz strumieniowego tekstu obok lub zamiast audio. Strumieniowy tekst to to, co większość interfejsów produkcyjnych pokazuje na ekranie podczas napisów na żywo, tłumaczenia konferencji i scenariuszy dostępności. Tekst Gemini 3.5 Live Translate to tylko dodatek.
Potrzebujesz atrybucji per-mówca w przetłumaczonym wyjściu. Ujawnienie karty modelu "może utknąć na jednym głosie podczas szybkich sesji wielomówcowych" czyni to realnym ryzykiem dla spotkań.
Tłumaczysz rozmowy, gdzie stabilność ma większe znaczenie niż ekspresyjność. Wyjście audio nie może być poprawione w połowie wypowiedzi, więc na językach z późno-rozwiązującą składnią (mandaryńska polarność na końcu zdania, japoński czasownik na końcu zdania), wczesne zobowiązanie może odwrócić znaczenie. Dodatek benchmarku dokumentuje jeden taki przypadek.
Potrzebujesz tłumaczonych rozmów telefonicznych — dzwonienia na numer PSTN z tłumaczeniem działającym na linii. Gemini Live API to element budulcowy dla deweloperów, nie dostawca rozmów telefonicznych.

Uczciwe przyznanie. LiveLingo, produkt publikujący ten przewodnik, pasuje do drugiej kolumny w większości tych wymiarów: strumieniowe wyjście tekst + audio, atrybucja per-mówca, monotoniczne bramkowane zobowiązanie, więc wyświetlane tłumaczenia nigdy nie są cofane, tłumaczone rozmowy wychodzące. Wyjście audio LiveLingo jednak używa domyślnego silnika text-to-speech platformy hosta (iOS natywny na urządzeniach Apple), który brzmi mniej naturalnie niż generowany głos Gemini 3.5 Live Translate. To prawdziwa przewaga, którą Google dostarczył dzisiaj. Porównaj specyfikacje obok siebie na livelingo.io/compare/google-translate lub zmierzone liczby benchmarku na livelingo.io/research/benchmark-2026.

8. 8. Często Zadawane Pytania

Czym jest Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate to strumieniowy model tłumaczenia mowy na mowę wydany przez Google 9 czerwca 2026 roku. Jest oparty na Gemini 3 Pro, generuje przetłumaczone audio zachowujące intonację, tempo i wysokość głosu mówcy oraz automatycznie wykrywa 70+ języków. Jest dostępny dla deweloperów przez Gemini Live API i Google AI Studio (publiczny podgląd), dla konsumentów przez aplikację Google Translate na Android i iOS oraz dla wybranych klientów Google Workspace przez Google Meet (prywatny podgląd).

Jakie języki obsługuje Gemini 3.5 Live Translate?

Ponad 70 języków, wykrywanych automatycznie. W Google Meet konkretnie rozszerza to poprzednie pokrycie z 5 języków do 70+ języków i obsługuje ponad 2000 kombinacji źródło/cel w ramach jednego spotkania.

Ile kosztuje Gemini 3.5 Live Translate?

Dla konsumentów aplikacja Google Translate jest darmowa. Dostęp deweloperski przez Gemini Live API i Google AI Studio jest wyceniany według standardowych stawek API Google — sprawdź Google AI Studio dla aktualnych cen. Dostęp korporacyjny przez Google Meet jest ograniczony do wybranych klientów Google Workspace w prywatnym podglądzie od 9 czerwca 2026.

Jak Gemini 3.5 Live Translate radzi sobie z wieloma mówcami?

Według karty modelu Gemini 3.5 Audio opublikowanej przez Google DeepMind: "Głosy mogą być niespójne, a głosy mogą się zmieniać po długich pauzach, zmieniać płeć lub utknąć na jednym głosie podczas szybkich sesji wielomówcowych." Praktycznie: rozmowy jeden-na-jeden i dyskusje kolejkowe z wyraźnymi pauzami działają dobrze; szybkie scenariusze wielomówcowe to udokumentowana słabość. Nie ma atrybucji per-mówca w przetłumaczonym wyjściu audio.

Czy Gemini 3.5 Live Translate wyprowadza tekst?

Głównym wyjściem jest przetłumaczona mowa. Transkrypty tekstowe są dostępne, ale tylko jako dodatek do mówionego wyjścia — nie ma trybu strumieniowego tekstu, a API trybu tłumaczenia nie przyjmuje wejścia tekstowego.

Jakie jest zmierzone opóźnienie Gemini 3.5 Live Translate?

Google opisuje system jako pozostający "kilka sekund za mówcą." Niezależny pomiar przez LiveLingo Research w dniu premiery zarejestrował medianę opóźnienia pierwszego audio 2947 ms (p10–p90: 2859–3104 ms) na 120 testowych wypowiedziach — około 3-sekundowe stałe opóźnienie mówienia. Źródło: livelingo.io/research/benchmark-2026.

Kiedy został wydany Gemini 3.5 Live Translate?

Google ogłosił i rozpoczął wdrażanie Gemini 3.5 Live Translate 9 czerwca 2026 roku, na Gemini Live API i Google AI Studio (publiczny podgląd deweloperski), aplikacji Google Translate na Android i iOS (globalne wdrażanie od tego dnia) oraz Google Meet (prywatny podgląd dla wybranych klientów Workspace).

9. 9. Źródła

Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Blog Google, 9 czerwca 2026. blog.google
Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, 9 czerwca 2026. marktechpost.com
LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, 9 czerwca 2026. livelingo.io/research/benchmark-2026