Gemini 3.5 Canlı Çeviri: Özellikler, Sınırlar, Nasıl Çalışır (2026)

Çok dilli video görüşmesinde çeşitli profesyoneller, konuşmacılar arasında sürekli akan çevrilmiş konuşmalarla.

1. 1. Gemini 3.5 Canlı Çeviri Nedir

Gemini 3.5 Canlı Çeviri, Google'ın 9 Haziran 2026'da duyurduğu akış halinde konuşma-konuşma çeviri modelidir. İki özellik onu önceki çeviri ürünlerinden ayırır.

İlk olarak, eski konuşma-metin-çeviri-metin-konuşma hattının aksine ses-ses çevirisidir. Model, 100 milisaniyelik parçalar halinde akış kaynak sesini kabul eder ve çıktı olarak çevrilmiş konuşma üretir. Metin transkriptleri mevcuttur, ancak yalnızca konuşulan çıktının yan ürünü olarak — akış metin modu yoktur ve çevrilmiş seste konuşmacı atfı bulunmaz.

İkinci olarak, üretilen ses konuşmacı prozodisini koruyacak şekilde tasarlanmıştır. Google'ın duyurusunda konuşmacının tonlama, ritim ve ses perdesini koruyan çıktı tanımlanmaktadır. Pratikte bu, ses çıktısı standart bir TTS katmanından geçen konuşma-çeviri sistemlerine göre gerçek bir avantaj olan — genel bir metin-konuşma motorunun bir çeviriyi yüksek sesle okumasından önemli ölçüde daha doğal gelen çevrilmiş bir ses üretir.

Model Gemini 3 Pro üzerine kurulmuştur. Google DeepMind tarafından yayınlanan Gemini 3.5 Ses model kartına göre, 128K token'a kadar bağlam penceresi ile ses girişini kabul eder ve 64K token'a kadar ses + metin çıktısı üretir. Konuşmacılar arasındaki hızlı dil geçişleri de dahil olmak üzere 70'den fazla dili otomatik algılar, ancak bu algılamanın belgelenmiş zayıflıkları vardır (Bölüm 4'te ele alınmıştır).

Lansmanı paralel olarak üç ürün yüzeyini kapsar: Gemini Live API ve Google AI Studio aracılığıyla geliştirici erişimi (9 Haziran 2026'dan itibaren genel önizleme); Android ve iOS'ta Google Çeviri uygulaması aracılığıyla tüketici erişimi, o gün başlayarak küresel olarak kullanıma sunuldu, Android'de yeni "dinleme modu" ile; ve seçili Google Workspace müşterileri için Google Meet aracılığıyla kurumsal erişim özel önizlemede, burada Meet'in çeviri kapsamını 5 dilden 70+'a genişletir ve tek bir toplantı içinde 2.000'den fazla kaynak/hedef kombinasyonunu destekler.

2. 2. Nasıl Çalışır: Ses-Ses Mimarisi ve Prozodi Korunması

Üç mimari seçim Gemini 3.5 Canlı Çeviri'yi önceki akış-çeviri sistemlerinden ayırır.

Konuşma-konuşma, konuşma-metin-konuşma değil

Geleneksel hatlar sesi akış konuşma-metin modeli aracılığıyla çalıştırır, transkripti makine-çeviri modeline besler, ardından çeviriyi ayrı bir metin-konuşma modeli aracılığıyla sentezler. Her aşama gecikme ekler ve hataları biriktirir. Gemini 3.5 Canlı Çeviri bu adımları tek bir ses modeline katlar. Takas: çıktı kalıcı sestir, düzenlenebilir metin değil — bir kelime söylendikten sonra, söyleyiş ortasında revize edilemez.

Sürekli akış, sıra tabanlı değil

Google'ın duyurusu modeli "kaliteyi artırmak için bağlam bekleme ile konuşmacıyla senkronize kalmak için hemen çeviri yapma arasındaki dengeyi kuran" bir model olarak çerçeveler. Google Çeviri'nin önceki Konuşma modunun önceki tüketici ürünleri sıra tabanlıydı: dokun, konuş, sistemin sonlandırıp çeviriyi yayınlamasını bekle, sonra diğer tarafın dokunmasına izin ver. Gemini 3.5 Canlı Çeviri, kaynak konuşmacı hala konuşurken sürekli olarak çevrilmiş konuşma yayınlar, Google "birkaç saniye" gecikme tanımlar.

Prozodi aktarımı

Model, kaynak konuşmacının ses özelliklerini — tonlama, ritim, vurgu, ses perdesi — çevrilmiş sese taşıyacak şekilde tasarlanmıştır. Bu, çıktının robotik yerine doğal gelmesinin ana teknik nedenidir. Aynı zamanda Google'ın model kartının açıkladığı ses tutarlılığı sınırlamalarının da kaynağıdır (Bölüm 4).

Geliştirici yüzeyinde, her oturum giriş olarak 16 kHz mono'da ham 16-bit PCM ses kullanır ve 100 milisaniyelik parçalar halinde gönderilen 24 kHz mono PCM ses çıktısı üretir. Tüm üretilen ses Google'ın SynthID filigranını taşır — dalga formuna dokunan ve aşağı akış sistemlerinin sesi makine üretimi olarak tanımlamasına olanak tanıyan algılanamaz bir imza.

Ses dalgaları ve dil seçimi ile akış sesli çeviri arayüzü gösteren akıllı telefon.

3. 3. Gemini 3.5 Canlı Çeviri'nin En Güçlü Olduğu Alanlar

Gemini 3.5 Canlı Çeviri'yi emsalleriyle karşılaştırırken beş ürün gücü hemen ortaya çıkar.

Doğal gelen çevrilmiş konuşma. Prozodi koruyan ses, ses çıktısı genel bir TTS motoru aracılığıyla geçen konuşma-çeviri sistemlerine göre en net avantajdır. Çevrilmiş sesinin düz bir anlatıcının bir dizi kelimeyi okuması gibi geldiği bir sesli çeviri uygulaması kullandıysanız, kontrast hemen bellidir. Gemini 3.5 Canlı Çeviri burada maddi olarak daha iyidir ve fark ilk cümlede duyulur.

Ses-ses basitliği. Konuşma-çeviri uygulaması oluşturmak geleneksel olarak akış STT modeli (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), çeviri modeli ve TTS motorunu zincirleme bağlamak — ve her birinin kısmi-yayın semantiğini yönetmek anlamına geliyordu. Gemini 3.5 Canlı Çeviri bu zinciri tek bir API çağrısıyla değiştirir, hem uygulama kodunu hem de hata yüzeyini basitleştirir.

Ölçekte otomatik dil algılama. 70+ dil otomatik algılanır, kullanıcının önceden dil çifti ayarlamasına gerek yoktur. Google'ın konumlandırması, konuşmacıların konuşma ortasında dil değiştirdiği çok taraflı toplantılar gibi kullanım durumlarını vurgular.

Dağıtım. Doğrudan Google Çeviri tüketici uygulamasına ve Google Meet'e entegre edilmiştir. Son kullanıcılar için kurulum ve keşif maliyeti neredeyse sıfırdır — zaten uygulamaya sahipler. Meet müşterileri için çeviri, zaten kullanımda olan bir iş akışı içinde özellik geçişi olarak gelir.

Filigranlanmış çıktı. SynthID filigranı, üretilen konuşmayı AI tarafından üretilen içeriği izlemesi gereken düzenlenmiş sektörlerde yararlı olan, aşağı akış uyumluluk kullanım durumları için AI üretimi olarak tanımlanabilir kılar.

4. 4. Google'ın Kendi Model Kartının Sınırlılık Olarak Kabul Ettiği Noktalar

Google DeepMind tarafından yayınlanan Gemini 3.5 Ses model kartı Gemini 3.5 Canlı Çeviri'nin belirli bilinen sınırlarını belgeler. Karttan doğrudan alıntı yaparak:

Dil algılama

"Dil algılama ana dil olmayan aksanlar, benzer diller veya hızlı dil geçişleri ile zorlanabilir." Pratik sonuç: konuşmacının güçlü bir aksanı varsa veya kaynak dil ilgili bir dile yakınsa (Portekizce vs. İspanyolca, Norveççe vs. İsveççe) veya konuşma hızla dil değiştiriyorsa, algılayıcı yanlış kaynak dili seçebilir ve buna göre çeviri yapabilir.

Çok konuşmacılı oturumlarda ses tutarlılığı

"Sesler tutarsız olabilir ve sesler uzun duraklamalardan sonra değişebilir, cinsiyet değiştirebilir veya hızlı çok konuşmacılı oturumlarda tek seste takılabilir." Bu, birçok kullanım durumu için pratik olarak en önemli sınırlamadır. Birkaç konuşmacının hızlı sıra aldığı bir toplantıda, model tüm çevrilmiş çıktıyı tek seste üretebilir — dinleyicilerin konuşmayı takip etmek için güvendiği konuşmacı atfını kaybeder.

Gürültü filtreleme

"Arka plan gürültüsünü filtreleyecek şekilde tasarlanmıştır, ancak tüm arka plan sesi göz ardı edilmeyebilir." Gerçek dünya ortamları bazı koşullarda hala sızacaktır.

Çeviri modu kısıtlamaları (geliştirici API)

Google'ın geliştirici belgelerini kaynak alan lansmanın kapsamına göre, "çeviri modunda metin girişi desteklenmez" ve model "bu modda araç kullanımını ve sistem talimatlarını düşürür." Geliştiriciler için çeviri API çağrısı kısıtlı bir yüzeydir — metin gönderemezsiniz, daha geniş Gemini araç ekosistemini kullanamazsınız ve sistem istemlerini enjekte edemezsiniz. Çeviri girer, çeviri çıkar.

5. 5. LiveLingo 2026 Kıyaslamasından Bağımsız Ölçümler

LiveLingo Research, Gemini 3.5 Canlı Çeviri'yi lansmanının günü (9 Haziran 2026) Google Cloud STT v2 + Translation v3, Azure Speech Translation ve Whisper-large + GPT-4o-mini'nin orijinal kıyaslaması için kullanılan aynı protokole karşı değerlendirdi. Tam ek livelingo.io/research/benchmark-2026#comprehension-gemini-live adresinde yayınlanmıştır; başlık rakamları aşağıdadır.

Anlama doğruluğu bileşik: 5'te 4,93 120 söyleyiş ve dört dil çifti boyunca (en→es, en→zh-CN, en→ja, en→de). Bu, kıyaslamadaki dört rakip sistem arasında en güçlü sonuçtur; bir sonraki en yakın skor 4,77'dir (Google Cloud Translation v3).

İlk-ses gecikmesi: medyan 2.947 ms konuşmanın başlangıcından ilk çevrilmiş sese kadar (p10–p90: 2.859–3.104 ms). Bu, Google'ın "birkaç saniye geride" çerçevesiyle tutarlı sabit ~3 saniyelik konuşma gecikmesidir.

Çıktı yalnızca çevrilmiş konuşmadır. API'nin akış metin modu yoktur ve konuşmacı başına atfı yoktur. Metin transkriptleri konuşulan çıktının yan ürünü olarak mevcuttur. Konuşulan çıktı yayınlandıktan sonra revize edilemez.

Kod geçişli ses. 86 saniyede İngilizce sokak röportajlarına geçiş yapan bir Mandarin haber klibinde, LiveLingo kıyaslaması, çeviri çıktısının her çalıştırmada geçiş noktasında durduğunu kaydetti: çıktı dilinde zaten bulunan konuşma ne çevriliyor ne de yazıya dökülüyor, bu nedenle içeriğin son 34 saniyesi (klibin yaklaşık %28'i) dinleyici için sessizce kayboluyor ve hiçbir hata bildirilmiyor. OpenAI'nin gpt-realtime-translate'i aynı klipte aynı davranışı gösteriyor ve OpenAI, çıktı dilindeki konuşmayı atlamayı kasıtlı olarak belgeliyor; bu, karışık dilli seslerde mevcut konuşmadan konuşmaya çevirmenlerin yapısal bir sınırlamasıdır.

Geç çözümlenen sözdiziminde olgusal tersine çevirme. Mandarin iş konuşması klibinde, %15 satış artışını tanımlayan bir cümle İngilizce'de satışları %15 artırma hedefi olarak işlendi. Bu, kaynak dil anlam taşıyan öğeyi (polarite, zaman referansı, özne) cümlenin sonuna kadar ertelediğinde geri alınamaz cümle ortası ses taahhüdünün ürettiği hata sınıfıdır.

Bunlar bağımsız ölçümlerdir, Google'ın kendi rakamları değil; metodoloji ve ham söyleyiş başına veriler yayınlanan ekte bulunmaktadır.

6. 6. Gemini 3.5 Canlı Çeviri'ye Nasıl Erişilir

Tüketici — Google Çeviri uygulaması

Android veya iOS'ta Google Çeviri uygulamasını en son sürümüne güncelleyin. Canlı Çeviri modu 9 Haziran 2026'dan başlayarak küresel olarak kullanıma sunuluyor — kullanılabilirlik bölgenizdeki mağaza kullanıma sunma programına bağlıdır. Android'de yeni "dinleme modu" çevrilmiş konuşmayı doğrudan cihazınızın kulaklığından duymanızı sağlar.

Geliştirici — Gemini Live API + Google AI Studio

Model Gemini Live API ve Google AI Studio aracılığıyla genel önizlemede mevcuttur. Lansmanın kapsamına göre, entegrasyon kısıtlamaları spesifiktir: yalnızca ses girişi (çeviri modunda metin girişi yok), araç kullanımı veya sistem talimatları yok, 100 ms'de parçalanmış ham 16-bit PCM 16 kHz mono giriş, 24 kHz PCM çıktı. Mevcut kotalar ve fiyatlandırma için Google AI Studio'ya başvurun.

Kurumsal — Google Meet

Gemini 3.5 Canlı Çeviri, 9 Haziran 2026 itibariyle seçili Google Workspace müşterileri için özel önizlemededir. Etkinleştirildiğinde, Meet'in çeviri kapsamını 5 dilden 70+ dile genişletir ve tek bir toplantı içinde 2.000+ kaynak/hedef kombinasyonunu destekler. Kullanılabilirlik kademeli, evrensel değil.

7. 7. Gemini 3.5'i Ne Zaman Kullanmalı — ve Başka Bir Araç Ne Zaman Daha Uygun

Gemini 3.5 Canlı Çeviri'nin doğru seçim olduğu durumlar

Çevrilmiş metin değil, çevrilmiş konuşma istiyorsunuz. Doğal ses çıktısı ürünün en büyük avantajıdır.
Zaten Google Çeviri uygulamasında veya Google Meet'tesiniz. Entegrasyon keşfetmek ve kullanmak için sıfır maliyetlidir.
Konuşmalarınız bire bir veya konuşmacılar arasında duraklamalarla net sıra alma var. Google'ın model kartının açıkladığı ses tutarlılığı sınırlamaları bu bağlamlarda daha zayıftır.
STT → MT → TTS zincirini tek bir API'ye basitleştirmenin her aşama üzerinde ince ayarlı kontrolden daha önemli olduğu bir geliştirici uygulaması oluşturuyorsunuz.
Ses çıktısında konuşmacı atfı olmadan ve akış metin transkriptleri olmadan yaşayabilirsiniz.

Farklı bir aracı tercih edebileceğiniz durumlar

Ses ile birlikte veya yerine akış metne ihtiyacınız var. Akış metin, çoğu üretim arayüzünün canlı altyazı, konferans çevirisi ve erişilebilirlik senaryoları sırasında ekranda gösterdiği şeydir. Gemini 3.5 Canlı Çeviri'nin metni yalnızca yan üründür.
Çevrilmiş çıktıda konuşmacı başına atfa ihtiyacınız var. Model kartının "hızlı çok konuşmacılı oturumlarda tek seste takılabilir" açıklaması bunu toplantılar için gerçek bir risk haline getirir.
İfade gücünden çok istikrarın önemli olduğu konuşmaları çeviriyorsunuz. Ses çıktısı söyleyiş ortasında revize edilemez, bu nedenle geç çözümlenen sözdizimi olan dillerde (Mandarin'de cümle sonunda polarite, Japonca'da cümle sonunda fiil), erken taahhüt anlamı tersine çevirebilir. Kıyaslama eki böyle bir durumu belgeler.
Çevrilmiş telefon aramalarına ihtiyacınız var — hatta çeviri çalışan PSTN numarasını arama. Gemini Live API geliştiriciler için yapı taşıdır, telefon araması sağlayıcısı değil.

Dürüst bir itiraf. Bu rehberi yayınlayan ürün LiveLingo, bu boyutların çoğunda ikinci sütuna uyar: akış metin + ses çıktısı, konuşmacı başına atıf, görüntülenen çevirilerin asla geri çekilmemesi için monoton kapılı taahhüt, çevrilmiş giden telefon aramaları. Ancak LiveLingo'nun ses çıktısı, ana platformun varsayılan metin-konuşma motorunu (Apple cihazlarda iOS yerel) kullanır, bu da Gemini 3.5 Canlı Çeviri'nin üretilen sesinden daha az doğal gelir. Bu, Google'ın bugün sevk ettiği gerçek bir avantajdır. Özellikleri yan yana livelingo.io/compare/google-translate adresinde karşılaştırın veya ölçülmüş kıyaslama rakamlarını livelingo.io/research/benchmark-2026 adresinde görün.

8. 8. Sık Sorulan Sorular

Gemini 3.5 Canlı Çeviri nedir?

Gemini 3.5 Canlı Çeviri, Google tarafından 9 Haziran 2026'da piyasaya sürülen akış konuşma-konuşma çeviri modelidir. Gemini 3 Pro üzerine kurulmuştur, konuşmacının tonlama, ritim ve ses perdesini koruyan çevrilmiş ses üretir ve 70+ dili otomatik algılar. Gemini Live API ve Google AI Studio aracılığıyla geliştiricilere (genel önizleme), Android ve iOS'ta Google Çeviri uygulaması aracılığıyla tüketicilere ve Google Meet aracılığıyla seçili Google Workspace müşterilerine (özel önizleme) sunulmaktadır.

Gemini 3.5 Canlı Çeviri hangi dilleri destekler?

70'den fazla dil, otomatik algılanır. Özellikle Google Meet'te bu, önceki kapsamı 5 dilden 70+ dile genişletir ve tek bir toplantı içinde 2.000'den fazla kaynak/hedef kombinasyonunu destekler.

Gemini 3.5 Canlı Çeviri'nin maliyeti ne kadar?

Tüketiciler için Google Çeviri uygulaması ücretsizdir. Gemini Live API ve Google AI Studio aracılığıyla geliştirici erişimi Google'ın standart API oranları üzerinden fiyatlandırılır — mevcut fiyatlandırma için Google AI Studio'yu kontrol edin. Google Meet aracılığıyla kurumsal erişim, 9 Haziran 2026 itibariyle özel önizlemede seçili Google Workspace müşterilerine kapılıdır.

Gemini 3.5 Canlı Çeviri birden fazla konuşmacıyı nasıl ele alır?

Google DeepMind tarafından yayınlanan Gemini 3.5 Ses model kartına göre: "Sesler tutarsız olabilir ve sesler uzun duraklamalardan sonra değişebilir, cinsiyet değiştirebilir veya hızlı çok konuşmacılı oturumlarda tek seste takılabilir." Pratik olarak: bire bir konuşmalar ve net duraklamalı sıra alma tartışmaları iyi çalışır; hızlı çok konuşmacılı senaryolar belgelenmiş bir zayıflıktır. Çevrilmiş ses çıktısında konuşmacı başına atıf yoktur.

Gemini 3.5 Canlı Çeviri metin çıktısı veriyor mu?

Birincil çıktı çevrilmiş konuşmadır. Metin transkriptleri mevcuttur, ancak yalnızca konuşulan çıktının yan ürünü olarak — akış metin modu yoktur ve çeviri modu API'si metin girişi kabul etmez.

Gemini 3.5 Canlı Çeviri'nin ölçülen gecikmesi nedir?

Google sistemi "konuşmacının birkaç saniye gerisinde" kalan olarak tanımlar. LiveLingo Research tarafından lansmanın günü yapılan bağımsız ölçüm, 120 test söyleyişi boyunca medyan 2.947 ms ilk-ses gecikmesi (p10–p90: 2.859–3.104 ms) kaydetti — yaklaşık 3 saniyelik sabit konuşma gecikmesi. Kaynak: livelingo.io/research/benchmark-2026.

Gemini 3.5 Canlı Çeviri ne zaman piyasaya sürüldü?

Google, 9 Haziran 2026'da Gemini 3.5 Canlı Çeviri'yi duyurdu ve kullanıma sunmaya başladı, Gemini Live API ve Google AI Studio (geliştirici genel önizlemesi), Android ve iOS'ta Google Çeviri uygulaması (o gün başlayan küresel kullanıma sunma) ve Google Meet (seçili Workspace müşterileri için özel önizleme) genelinde.

Konuşmanın ortasında sesin dili değiştiğinde hangi araç çalışmaya devam eder?

Gemini 3.5 Live Translate gibi sesten sese çevirmenlerin yapısal kör noktası tam burada: kıyaslamanın Çince'den İngilizce'ye geçen kod değiştirme klibinde, kaynak ses hedef dile geçtiği anda çeviri çıktısı duruyor ve içeriğin son ~%28'i sessizce kayboluyor. LiveLingo, asla yeniden yazılmayan bir yazılı dökümle sesten metne ve metinden sese çalışır; böylece dilleri karışık ses kaybolmak yerine aktarılır ve ekranda kalır. Konuşmacıların iki dili karıştırdığı sohbetlerde bu, konuşmayı takip etmekle söylenenlerin üçte birini kaçırmak arasındaki farktır. Kıyaslamaya bakın.

9. 9. Kaynaklar

Google. Gemini 3.5 Canlı Çeviri ile Akıcı, doğal ses çevirisi. Google blog, 9 Haziran 2026. blog.google
Google DeepMind. Gemini 3.5 Ses (Canlı Çeviri) — Model Kartı. deepmind.google
MarkTechPost. Google, Meet, Çeviri ve Live API Genelinde 70+ Dili Kapsayan Akış Konuşma-Konuşma Ses Modeli Gemini 3.5 Canlı Çeviri'yi Piyasaya Sürüyor, 9 Haziran 2026. marktechpost.com
LiveLingo Research. Gerçek Zamanlı Sesli Çeviri Kıyaslaması 2026 — Gemini 3.5 Canlı Çeviri eki, 9 Haziran 2026. livelingo.io/research/benchmark-2026