1. 1. OpenAI'nin 2026'da Canlı Çeviri İçin Sunduğu Ürünler
Haziran 2026 itibariyle üç farklı yüzey mevcut:
ChatGPT Ses — canlı çeviri (tüketici). Canlı çeviri, ChatGPT'nin Ses moduna entegre edilmiş durumda. Kullanıcı ChatGPT uygulamasındaki mesaj düzenleyicisinde Ses simgesine dokunuyor, asistandan diller arasında çeviri yapmasını istiyor ve model durdurmak veya değiştirmek söylenene kadar konuşma boyunca çeviri yapmaya devam ediyor. Bu, ücretli bir ChatGPT aboneliği gerektiriyor — Plus, Teams, Enterprise veya Edu (OpenAI tüketici fiyatlandırma sayfası; Plus ~$20/ay). 10 Haziran 2026 kontrollerimizde ücretsiz katmanda canlı çeviri tüketici erişimi bulunmuyor. Arayüz, özel bir çevirmen UI'ı yerine konuşma tabanlı; kaynak/hedef dil çifti seçicisi, iki sütunlu kaynak-ve-çevrilmiş transkript veya arama çevirme özelliği yok.
`gpt-realtime-translate` (özel API modeli). 7 Mayıs 2026'da OpenAI, Realtime API içinde özel olarak tasarlanmış akışlı konuşma-konuşma çeviri modeli yayınladı. OpenAI'nin duyurusuna göre, model "binlerce saatlik profesyonel tercüman sesi üzerinde eğitildi" ve "yalnızca çeviri yapmak ve konuşma üretmeden önce yeterli bağlam beklemek" üzere yapılandırıldı. 70+ giriş dilini 13 çıkış diline çeviriyor ve dakika başına $0.034 giriş sesi (OpenAI API fiyatlandırması) ile fiyatlandırılıyor. OpenAI'nin duyurusunda adı geçen belgelenmiş lansman ortakları: Deutsche Telekom (çok dilli müşteri desteği) ve Vimeo (ürün eğitimi videolarının gerçek zamanlı çevirisi).
Whisper + GPT-4o-mini (DIY pipeline). Orijinal geliştirici yolu mevcut olmaya devam ediyor. Whisper-large konuşma-metin dönüşümünü hallediyor (OpenAI'nin konuşma-metin rehberine göre 99 dil; OpenAI'nin API fiyatlandırma sayfasında dakika başına $0.006); GPT-4o-mini çeviriyi hallediyor (token başına fiyatlandırma, aynı kaynak). Birlikte, keyfi dil çiftlerini destekliyorlar — `gpt-realtime-translate`'in 13-çıkış tavanı değil — ve geliştiriciye parçalama, komut verme, sözlük işleme ve çıkış formatı üzerinde tam kontrol veriyor. Bedeli mühendislik: Whisper'ın API'ı sürekli konuşmayı söylem sınırlarına bölmez, bu yüzden geliştirici ses aktivitesi tespiti (VAD), uç nokta mantığı, halüsinasyon filtreleme, akışlı UI ve telefon sistemi sağlar.
2. 2. ChatGPT Ses — Canlı Çeviri Modu (Tüketici)
Canlı çevirili ChatGPT Ses, iOS, Android ve web'deki tüketici ChatGPT uygulaması içinde çalışır. Kullanıcı bir Ses oturumu açar ve asistana "İngilizce ve Japonca arasında çeviri yap" gibi bir çeviri talimatı verir. Model daha sonra her konuşmacının söylediklerini istenen hedef dile sürekli olarak, sıra sıra, kullanıcı durdurmak, dil değiştirmek veya oturumu sonlandırmak söyleyene kadar çevirir.
Erişim ücretli ChatGPT aboneliği gerektirir. Canlı çevirili yükseltilmiş Ses modu ChatGPT Plus (OpenAI'nin tüketici fiyatlandırma sayfasına göre ~$20/ay), Teams, Enterprise ve Edu kullanıcılarına sunuluyor; erişim mesaj düzenleyicisindeki Ses simgesi aracılığıyla başlatılıyor (chatgpt.com/features/voice'da belgelendiği ve Tom's Guide ile 9to5Mac'in lansman kapsamında doğruladığı gibi). Canlı çeviri özelliği 10 Haziran 2026 kontrollerimizde ücretsiz katmanda görünmüyor.
Arayüzün size verdiği ve vermediği özellikler. Kullanıcı deneyimi konuşma tabanlı bir Ses oturumu — bire bir çapraz dil alışverişi veya küçük yüz yüze konuşma için doğal. Kaynak/hedef dil seçicisi, dinlerken okuyabileceğiniz iki sütunlu kaynak-ve-çevrilmiş transkript çifti, oturum dışa aktarımı, toplantı notu veya giden telefon araması çevirme içeren özel bir çevirmen UI'ı içermiyor. Model ses aktivitesi ve sıra almayı dahili olarak hallediyor; kullanıcının uç nokta zamanlaması, sözlük veya komut stili üzerinde açık kontrolü yok.
Temel model ve davranış. ChatGPT Ses'in canlı çevirisi OpenAI'nin Realtime model ailesi üzerine kurulu. 7 Mayıs 2026 sürümünün lansman kapsamı (Tom's Guide, 9to5Mac, Slator) tüketici Ses yüzeyinin `gpt-realtime-translate`'i barındıran aynı Realtime altyapısını kullandığını, üzerine tüketici-uygulama-katmanı ses aktivitesi tespiti, konuşma durumu ve UI render'ı eklediğini gösteriyor. OpenAI'nin halka açık model belgeleri 10 Haziran 2026 itibariyle tüketici Ses çeviri varyantı için ayrı bir model kartı tanımlamıyor.
3. 3. gpt-realtime-translate — Özel API Modeli
`gpt-realtime-translate`, OpenAI'nin 7 Mayıs 2026'da Realtime API içinde yayınlanan ilk özel yapım çeviri modeli. DIY Whisper + GPT-4o-mini rotasından farklı olarak akışlı konuşma-konuşma dönüşümü iki bağımsız komutlu API çağrısı yerine tek bir modelde gerçekleşiyor.
Özellikler. OpenAI'nin geliştirici cookbook'una göre: 70+ giriş dili otomatik tespit, 13 çıkış dili. Dakika başına $0.034 giriş sesi fiyatlandırması. Çevrilmiş ses artı hem kaynak konuşmanın hem de çevrilmiş çıkışın metin transkriptlerini döndürüyor — tüketici ChatGPT Ses modunun açığa çıkarmadığı bir transkript yüzeyi. Konuşmacı atfı ve ses seçimi yok. Konuşulan çıkış yayınlandıktan sonra revize edilemiyor.
Eğitim ve davranış. OpenAI, modelin "binlerce saatlik profesyonel tercüman sesi üzerinde eğitildiğini, bu da yalnızca çeviri yapmasına ve konuşma üretmeden önce yeterli bağlam beklemesine yardımcı olduğunu" belirtiyor. OpenAI'nin kendi değerlendirmesinde, model Hindi, Tamil ve Telugu'da test edilen diğer tüm modellerden %12.5 daha düşük Kelime Hata Oranları sundu — sürümün belgelenmiş Hint dili gücü.
Çeviri modu kısıtlamaları. OpenAI cookbook'una göre, çeviri modu API çağrısı genel Realtime API kullanımına kıyasla kısıtlı bir yüzey. Çeviri modunda metin girişi desteklenmiyor ve araç kullanımı ile sistem talimatları devre dışı — giriş ses, çıkış ses artı transkriptler ve model genel ses asistanı yerine özel tercüman olarak davranıyor.
4. 4. Whisper + GPT-4o-mini — DIY Pipeline
Whisper + GPT-4o-mini rotası mevcut olmaya devam ediyor ve özel çeviri modelinin sağlamadığı davranışlara ihtiyaç duyan geliştiriciler için doğru seçim olmaya devam ediyor: 13-dil tavanı dışındaki keyfi çıkış dilleri, ince ayarlı komut ve sözlük kontrolü, özel parçalama stratejileri veya araç kullanımı gibi diğer Realtime API yetenekleriyle entegrasyon.
Özellikler. Whisper-large konuşma-metin için 99 giriş dilini destekliyor (OpenAI konuşma-metin rehberi) dakika başına $0.006 ses (OpenAI fiyatlandırma sayfası) ile. GPT-4o-mini çeviri adımını token başına fiyatlandırma ile hallediyor (aynı zamanda OpenAI fiyatlandırma sayfasında). İki servis bağımsız ağ çağrıları; toplam dakika başına maliyet transkript uzunluğuna bağlı ama genellikle İngilizce-hedef kullanım için `gpt-realtime-translate`'den daha düşük ve daha yüksek mühendislik çabası.
Geliştiricinin sağladığı bileşenler. Whisper + GPT-4o-mini üzerinde üretim gerçek zamanlı ses çevirisi aşağıdaki bileşenleri gerektirir, bunların hiçbirini OpenAI göndermez:
- Ses aktivitesi tespiti (VAD). Whisper'ın API'ı tamamlanmış ses parçalarında transkripsiyon sunar ama sürekli konuşmayı söylem sınırlarına bölmez; geliştirici her parçayı ne zaman göndereceğine karar vermek için ayrı bir VAD sağlar. Onsuz, bir söylemin ne zaman bittiğine dair sinyal yoktur.
- Uç nokta mantığı. Daha fazla ses beklemeye (düşük gecikme, daha fazla revizyon) veya erken taahhüt etmeye (yüksek gecikme, daha az revizyon) karar vermek. Ödünleşim kullanıcı deneyimini tanımlar.
- Halüsinasyon filtreleme. Whisper'ın kısa kliplerde İngilizce dolgu metni halüsinasyonu yaptığı yaygın olarak bildiriliyor — yaygın yapıtlar "İzlediğiniz için teşekkürler!" ve "Abone olun!" içeriyor, eğitim korpusundaki YouTube içeriğine atfediliyor; openai/whisper GitHub kısa kliplerde halüsinasyon tartışmasına bakın. Üretim dağıtımları bunları filtrelemeyi gerektirir.
- Akışlı UI primitifleri. Görüntülenen metnin geri çekilmemesi için kapılı-taahhüt katmanı, kısmi parçaların birikimi, kaydırma davranışı ve kaynak-vs-çevrilmiş görüntü.
- Telefon araması kullanımı için telefon entegrasyonu (Twilio, Telnyx veya benzeri), çift yönlü ses köprüleme ve yargı yetkisi başına arama kayıt açıklama uyumluluğu dahil.
- Maliyet izleme + oran sınırı işleme. Sürekli kullanımda, dakika başına maliyet sabit aboneliği aşabilir ve hesap başına oran sınırları geri çekilme stratejileri gerektirir.
5. 5. Bağımsız Ölçümde Nasıl Performans Gösteriyorlar
Neyi ölçtük (ve neyi ölçmedik). Aşağıdaki sayılar ham `gpt-realtime-translate` Realtime API uç noktası için, Python SDK aracılığıyla programatik olarak erişildi, LiveLingo benchmark'ında her API-katman sistemine eşit olarak uygulanan aynı enerji-VAD söylem sınırları ile. ChatGPT Ses tüketici uygulamasını ayrı olarak ölçmedik. ChatGPT Ses aynı Realtime altyapısı üzerine kurulu ama tüketici yüzeyi kendi istemci-tarafı VAD'ı, konuşma durumu, UI render'ı ekliyor ve programatik erişimimizin olmadığı sunucu-tarafı yumuşatma uygulayabilir. Bir ChatGPT Ses kullanıcısı API-katman sayılarının bildirdiğinden farklı algılanan gecikme, gecikme kayması ve kod değiştirme davranışı görebilir. Bu bölümün belirli davranışları alıntıladığı yerde (kayma, kod değiştirme sessizliği), bunları Realtime API uç noktasındaki geliştirici-deneyimi tabanı olarak değerlendirin, ChatGPT-Ses tüketici tavanı değil. Whisper + GPT-4o-mini DIY pipeline sayıları benzer şekilde API-katmanı — naif temel pipeline'ı birleştirdikten sonra bir geliştiricinin deneyimlediğini yansıtıyorlar, elle ayarlanmış üretim sistemi değil.
Tekrarlanabilirlik. Bu bölümdeki her sayı aynı üç 120 saniyelik VOA kamu malı ses klibinden, aynı Realtime API uç noktasından ve orijinal dört sistem benchmark'ı için kullanılan aynı Python koşum takımından tekrarlanıyor. Ses (`audio.zip`), ham söylem başına JSON (`openai-realtime-results.json`) ve metodoloji livelingo.io/research/benchmark-2026'da yayınlandı.
gpt-realtime-translate — ölçülen davranış
Test edilen tüm sistemlerin en hızlı ilk-sesi. Tüm 120 değerlendirilen oturum boyunca konuşma başlangıcından ilk çevrilmiş sese kadar medyan 711 ms (p10–p90: 485–1,012 ms). Bağlam için, Gemini 3.5 Live Translate aynı metrikte ~2.9 s ölçtü — `gpt-realtime-translate` ilk çıkışta kabaca dört kat daha hızlı. Hız bu modelin gerçek gücü.
Anlama doğruluğu kompoziti: 4.53 / 5. İki bağımsız sınır LLM hakemi (GPT-4o, Gemini 2.5 Flash) tarafından orijinal dört sistem benchmark'ı ile aynı rubrik ve hakem komutları kullanılarak, 120 söylem ve dört dil çifti (en→es, en→zh-CN, en→ja, en→de) boyunca puanlandı. Bu, ölçülen altı sistemin en düşük puanıydı. LiveLingo'ya karşı hücre düzeyinde kafa kafaya: 4 galibiyet, 80 beraberlik, 36 mağlubiyet. Tekrarlayan hata sınıfları: söylem başlangıçlarında eklenen gereksiz ifadeler, anlam tersine çevirmeleri (örn. "İş yüzünden stresliyim" stresli olmak istiyormuş gibi render edilmesi) ve özel isimlerin yaygın isimlerle değiştirilmesi.
LiveLingo 2026 benchmark'ında altı sistem karşılaştırması (120 söylem, dört dil çifti, 2-hakem kompoziti). Ham veri: livelingo.io/research/benchmark-2026.
| Sistem | Anlama (0–5) | İlk-ses / TTF gecikme | Çıkış yüzeyi |
|---|---|---|---|
| LiveLingo | 4.96 | 1,518 ms (taahhütlü transkript) | Akışlı metin + ses |
| Gemini 3.5 Live Translate | 4.93 | ~3,100 ms (TTF) | Ses (metin yan araç) |
| Google Cloud STT v2 + Translate v3 | 4.77 | ~26,736 ms (Final Transcript) | Transkript |
| Azure Speech Translation | 4.65 | ~4,755 ms (Final Transcript) | Transkript |
| Whisper + GPT-4o-mini (DIY) | 4.63 | 2,720 ms (Final Transcript) | Transkript |
| **OpenAI gpt-realtime-translate** | **4.53** | **~3,800 ms (TTF)** | **Ses + transkript** |
Sürekli konuşmada gecikme kayması. İlk-çıkışa-hız mükemmel, ama uzun seste çevrilmiş ses çevrilmemiş biriktirme biriktiği için konuşmacının progressif olarak gerisinde kalıyor. Her kaynak-söylem sonundan o söylem için çevrilmiş konuşmanın gelişine kadar ölçüm: medyan 3.8 s, yoğun pt→en VOA klibinde 20.3 s kadar geride kalıyor. Bu, ses-ses mimarisinin yarattığı ödünleşim — konuşma çıkışı doğal olarak sentezlenmiş sesin konuşma hızıyla sınırlı, bu yüzden model insan hızından daha hızlı "yetişemiyor".
Kod değiştirmiş konuşma başarısızlığı. OpenAI'nin geliştirici belgelerine göre, model zaten çıkış dilinde olan konuşmayı atlayabilir. LiveLingo benchmark'ındaki zh→en VOA klibinde bu, kaynak İngilizce konuşmaya geçtiğinde 86. saniye işaretinde sessizlik olarak ortaya çıktı — model sessizleşti ve İngilizce içeriği çevrilmiş çıkışa geçirmedi. Gemini 3.5 Live Translate aynı klipte aynı boşluğu sergiliyor; bu, ses-ses özel çeviri modelleri için bir sınıf sorunu (aşağıdaki çağrıya bakın). Akışlı metin transkripti sunan pipeline'lar kod değiştirmiş içeriği düşürmek yerine görüntülenen transkripte geçirebilir.
Çıkış yüzeyleri. Çevrilmiş ses artı hem kaynak hem de çıkışın metin transkriptleri — Gemini 3.5 Live Translate'in yalnızca ses API'sından daha çok transkript-öncelikli ürün yüzeyine yakın. Konuşmacı atfı yok. Ses seçimi yok. Konuşulan çıkış yayınlandıktan sonra revize edilemiyor.
Ses-ses paylaşılan sınırlamaları olan bir sınıf. Bu bölümdeki davranışlar `gpt-realtime-translate`'e özgü değil. Google'ın Gemini 3.5 Live Translate'i ve mevcut diğer herhangi bir konuşma-konuşma ses-ses çeviri modeli aynı sınıf ödünleşimlerini miras alıyor: (1) çıkış-hızı gecikme kayması sürekli konuşmada, çünkü çevrilmiş ses konuşma hızıyla sınırlı ve insan hızından daha hızlı yetişemiyor; (2) kod değiştirme sessizliği, çünkü model zaten çıkış dilindeki konuşmayı atlamak üzere yapılandırılmış; (3) sentezlenmiş seste satır içi konuşmacı atfı yok; (4) geri alınamaz söylem ortası taahhütler, çünkü konuşulan ses görüntülenen metnin yapabildiği gibi geri çekilemiyor. Akışlı metin transkripti sunan sistemler — OpenAI'nin DIY Whisper + GPT-4o-mini rotası ve LiveLingo gibi akışlı-transkript çeviri ürünleri dahil — iki model gecikme yükü veya farklı çıkış modalitesi pahasına (2), (3) ve (4)'ten kaçınıyor. Bunu bir model eleştirisi değil, kategori içgörüsü olarak değerlendirin.
Whisper + GPT-4o-mini DIY pipeline — ölçülen davranış
Aynı üç 120 saniyelik VOA klibinde, naif temel Whisper-large + GPT-4o-mini pipeline'ı medyan 2,720 ms Final Transcript Latency (%95 CI 1,880–3,396, n=28) ölçtü ve 120 saniyelik klip başına ≈22 Normalized Erasures (kısmi parçalar boyunca token revizyonları) yaydı. Anlama doğruluğu kompoziti aynı dört dil çifti boyunca 4.63 / 5 idi.
Özellikle: DIY pipeline özel `gpt-realtime-translate` modelinden daha yüksek anlama puanladı (4.63 vs 4.53). Özel model ilk çıkışa daha hızlı ve entegre etmesi daha kolay, ama bu benchmark'ta eski iki model pipeline'ı kaynak anlamını biraz daha doğru okuyor. Farklar 5 puanlık ölçekte ~0.10 içinde ve farklı tasarım önceliklerini yansıtıyor — özel model için hız ve operasyonel basitlik, pipeline için transkript-doğruluğu ve komut kontrolü.
6. 6. OpenAI'nin Kendi Belgelerinin Açıkladıkları
Doğrudan OpenAI'nin 7 Mayıs 2026 duyurusu ve geliştirici belgelerinden çekilen ifadeler:
- Eğitim korpusu. "Binlerce saatlik profesyonel tercüman sesi üzerinde eğitildi, bu da yalnızca çeviri yapmasına ve konuşma üretmeden önce yeterli bağlam beklemesine yardımcı oluyor." (Kaynak: OpenAI duyurusu.)
- Dil kapsamı. 70+ giriş dili 13 çıkış diline. (Kaynak: OpenAI Cookbook.)
- Hint dili gücü. OpenAI'nin kendi değerlendirmesinde Hindi, Tamil ve Telugu'da "test edilen diğer tüm modellerden %12.5 daha düşük Kelime Hata Oranları". (Kaynak: OpenAI duyurusu.)
- Kod değiştirme davranışı. OpenAI'nin belgeleri modelin zaten çıkış dilindeki konuşmayı atlayabileceğini belirtiyor — kod değiştirmiş seste sessizlik üreten bir tasarım seçimi.
- Mod kısıtlamaları. Çeviri modunda, metin girişi desteklenmiyor ve araç kullanımı artı sistem talimatları devre dışı. Çeviri modu çağrısı genel Realtime API'ya kıyasla kısıtlı bir yüzey.
- Çıkış formatı (geliştirici). Ses parçalı akış ile ham PCM'de gönderiliyor ve alınıyor. Tam format ve parça boyutu rehberliği için Realtime API rehberine bakın.
- Fiyatlandırma. `gpt-realtime-translate` için dakika başına $0.034 giriş sesi. Whisper için dakika başına $0.006 ses. GPT-4o-mini token başına. ChatGPT Plus yaklaşık $20/ay ve ChatGPT Ses canlı çeviri erişimi için minimum ücretli katman. (OpenAI API fiyatlandırması ve ChatGPT tüketici fiyatlandırması.)
- Belgelenmiş lansman kullanıcıları. Deutsche Telekom (çok dilli müşteri desteği) ve Vimeo (ürün eğitimi videolarının gerçek zamanlı çevirisi). (Kaynak: OpenAI duyurusu.)
7. 7. Hangi Yüzeyi Ne Zaman Seçmeli — ve Başka Bir Araç Ne Zaman Uygun
ChatGPT Ses canlı çeviriyi şu durumlarda seçin
- Zaten ChatGPT Plus (veya Teams, Enterprise, Edu) için ödeme yapıyorsunuz ve başka bir abonelik eklemek istemiyorsunuz.
- Kullanım durumunuz görüntülenen transkriptlere ihtiyaç duyan çok taraflı toplantı yerine bire bir veya küçük yüz yüze konuşma.
- Kaynak/hedef dil seçicileri ve kaydedilmiş transkripti olan özel çevirmen UI'ı yerine konuşma modu arayüzünü kabul ediyorsunuz.
- Modelin ses aktivitesi ve sıra almayı dahili olarak halletmesinde, açık kullanıcı kontrolü olmadan rahatınız.
gpt-realtime-translate (Realtime API) şu durumlarda seçin
- İlk-çevrilmiş-sese-zaman anlama marjından daha önemli olduğu bir geliştirici uygulaması oluşturuyorsunuz.
- Çıkış dil listeniz 13 dil içine sığıyor.
- OpenAI'nin kendi değerlendirmesinin diğer alternatiflere göre %12.5 WER azalması bildirdiği Hint dili kitlelerine (Hindi, Tamil, Telugu) hizmet veriyorsunuz.
- OpenAI'nin API'sı üzerine tüketici yüzeyini (UI, telefon, hata işleme, kod değiştirme geri dönüşleri) oluşturabiliyorsunuz.
- Aynı benchmark'ta DIY pipeline için 4.63'e karşı hız-vs-anlama ödünleşimini (4.53/5 anlama) iki yerine bir API çağrısı karşılığında kabul ediyorsunuz.
Whisper + GPT-4o-mini DIY şu durumlarda seçin
- 13-dil tavanı dışında keyfi çıkış dillerine ihtiyacınız var.
- Özel kelime dağarcığı veya stil kısıtlamaları için tam komut ve sözlük kontrolüne ihtiyacınız var.
- VAD, uç nokta tespiti, halüsinasyon filtreleme, akışlı UI ve telefon için mühendislik kapasiteniz var.
- Daha düşük dakika başına ses maliyeti ($0.006 Whisper) istiyorsunuz ve token başına GPT-4o-mini fiyatlandırmasını kabul edebiliyorsunuz.
- Çeviriyi özel çeviri modunun açığa çıkarmadığı daha geniş Realtime API yetenek yüzeyi (araç kullanımı, sistem talimatları) ile entegre etmek istiyorsunuz.
Farklı bir aracın daha iyi uyabileceği durumlar
OpenAI'nin üç yüzeyi çoğu canlı çeviri kullanım durumunu kapsar, ama her biri belirli bir şekil içinde yaşar: ChatGPT Ses çevirili bir chatbot, `gpt-realtime-translate` bir geliştirici API'sı ve Whisper + GPT-4o-mini bir yapı taşları seti. Özel bir çevirmen-uygulama yüzeyi — dinlerken okuyabileceğiniz akışlı metin + ses çıkışı, konuşmacı başına atıf, asla geri çekilmeyen kapılı-taahhüt görüntülenen transkriptler, çevrilmiş giden telefon aramaları ve abonelik kapısı dışında ücretsiz katman — farklı bir ürün kategorisi. LiveLingo (bu rehberi yayınlayan) orada oturuyor. Dürüst ödünleşim: LiveLingo'nun ses çıkışı ana platformun varsayılan metin-konuşma motorundan geçiyor, bu yüzden konuşulan ses `gpt-realtime-translate`'inkinden daha az ifadeli; ChatGPT Ses'in konuşma arayüzü gündelik karşılıklı konuşma için özel çevirmen UI'ından daha doğal hissedebilir. Yan yana özellikler: /tr/compare/chatgpt-translation. Benchmark sayıları: /tr/research/benchmark-2026.
8. 8. Sık Sorulan Sorular
OpenAI 2026'da hangi canlı çeviriyi sunuyor?
OpenAI, 2026 ortası itibariyle üç yüzeyde canlı çeviri gönderiyor. ChatGPT Ses ücretli aboneler (Plus, Teams, Enterprise, Edu) için canlı çeviri modu içeriyor. `gpt-realtime-translate`, 7 Mayıs 2026'da yayınlanan Realtime API'deki özel akışlı konuşma-konuşma çeviri modeli, 70+ giriş dili ve 13 çıkış dili ile dakika başına $0.034 giriş sesi fiyatlandırılıyor. Keyfi dil çiftleri ve yığının tam kontrolünü isteyen geliştiriciler için Whisper-large (konuşma-metin) ve GPT-4o-mini (çeviri) DIY pipeline'ı mevcut olmaya devam ediyor.
ChatGPT Ses canlı çeviri nasıl çalışır?
ChatGPT uygulaması mesaj düzenleyicisindeki Ses simgesine dokunun, sonra asistandan çeviri yapmasını isteyin — örn. "İngilizce ve Japonca arasında çeviri yap." Model durdurmak veya dil değiştirmek söyleyene kadar sıralar boyunca çeviri yapmaya devam eder. Ücretli ChatGPT abonelerine (Plus ~$20/ay, Teams, Enterprise veya Edu) sunuluyor. Kaynak/hedef dil seçicileri, kaynak-ve-çevrilmiş transkript çiftleri veya arama çevirme içeren özel çevirmen UI'ı değil, konuşma ses yüzeyi.
gpt-realtime-translate nedir?
OpenAI'nin 7 Mayıs 2026'da yayınlanan Realtime API'deki özel akışlı konuşma-konuşma çeviri modeli. Binlerce saatlik profesyonel tercüman sesi üzerinde eğitildi. 70+ giriş dili → 13 çıkış dili. Dakika başına $0.034 giriş sesi fiyatlandırılıyor. Çevrilmiş ses artı hem kaynak hem de çıkışın metin transkriptlerini döndürüyor. Lansmanında belgelenmiş kurumsal kullanıcılar Deutsche Telekom ve Vimeo'yu içeriyor.
Whisper ve GPT-4o-mini ile hala canlı çevirmen oluşturabilir misiniz?
Evet. DIY pipeline (Whisper-large $0.006/dak ses, 99 kaynak dil; GPT-4o-mini token başına) en esnek OpenAI rotası olmaya devam ediyor — keyfi dil çiftlerini destekliyor ve parçalama, komut verme ve çıkış formatı üzerinde tam kontrol veriyor. Ödünleşim mühendislik maliyeti: Whisper'ın API'sı sürekli konuşmayı söylem sınırlarına bölmez, bu yüzden geliştirici VAD, uç nokta mantığı, halüsinasyon filtreleme, akışlı UI ve telefon oluşturmalı.
gpt-realtime-translate'in ölçülen gecikme ve anlaması nedir?
LiveLingo Research benchmark eki'nde (10 Haziran 2026), `gpt-realtime-translate` test edilen tüm sistemlerin en hızlı ilk-ses gecikmesine sahipti — konuşma başlangıcından ilk çevrilmiş sese kadar medyan 711 ms. Anlama doğruluğu kompoziti 4.53 / 5, ölçülen altı sistemin en düşüğü. Sürekli konuşmada, çevrilmiş ses konuşmacının gerisinde kaldı — medyan 3.8 s, yoğun seste 20.3 s'ye kadar kayıyor. Tekrarlayan hatalar: gereksiz eklemeler, anlam tersine çevirmeleri, özel isim değiştirmeleri. Kaynak: livelingo.io/research/benchmark-2026.
Bu sayılar ChatGPT Ses kullanıcı deneyimini yansıtıyor mu?
Hayır. Ölçülen sayılar ham `gpt-realtime-translate` Realtime API çağrısı için. ChatGPT Ses aynı Realtime altyapısı üzerine kurulu ama tüketici uygulaması kendi istemci-tarafı VAD'ı, konuşma durumu, UI render'ı ekliyor ve ayrı olarak ölçülmeyen sunucu-tarafı yumuşatma uygulayabilir. Bir ChatGPT Ses kullanıcısı API-katman sayılarının bildirdiğinden farklı algılanan gecikme, gecikme kayması ve kod değiştirme davranışı görebilir. Yayınlanan benchmark'ı Realtime API uç noktasındaki geliştirici-deneyimi tabanı olarak değerlendirin, ChatGPT-Ses kullanıcı tavanı değil.
OpenAI kod değiştirmeyi nasıl hallediyor?
OpenAI'nin geliştirici belgelerine göre, `gpt-realtime-translate` zaten çıkış dilindeki konuşmayı atlayabilir. LiveLingo benchmark'ında bu, kaynak İngilizceye geçtiğinde zh→en VOA klibinde 86. saniye işaretinde sessizlik olarak ortaya çıktı. Gemini 3.5 Live Translate aynı klipte aynı boşluğu sergiliyor. Hedef dil konuşmasını görüntülenen transkripte geçiren akışlı metin-transkript sistemlerinde bu boşluk yok.
Hangi OpenAI yüzeyini ne zaman seçmelisiniz?
Zaten ChatGPT Plus veya daha yüksek için ödeme yapıyorsanız ve konuşma arayüzünü kabul ediyorsanız ChatGPT Ses canlı çeviri. Hız-ilk-sese görüntülenen-metin kararlılığından daha önemli olduğu, çıkış dil listenizin 13'e sığdığı ve tüketici yüzeyini üzerine oluşturabileceğiniz bir geliştirici uygulaması oluşturuyorsanız `gpt-realtime-translate`. Keyfi çıkış dillerine, tam komut ve sözlük kontrolüne, daha düşük dakika başına maliyete ve VAD, uç nokta tespiti, halüsinasyon filtreleme, akışlı UI ve telefon oluşturmak için mühendislik kapasitenize ihtiyacınız varsa Whisper + GPT-4o-mini DIY.
9. 9. Kaynaklar
- OpenAI. Advancing voice intelligence with new models in the API. OpenAI blog, 7 Mayıs 2026. openai.com
- OpenAI Developers. Build Live Translation Apps with gpt-realtime-translate. OpenAI Cookbook. developers.openai.com
- OpenAI Developers. Realtime and audio (Realtime API rehberi). developers.openai.com
- OpenAI. ChatGPT Voice mode (tüketici özellikler sayfası). chatgpt.com
- OpenAI. API pricing (model başına oranlar). openai.com/api/pricing
- OpenAI. ChatGPT pricing (tüketici katmanları). openai.com/chatgpt/pricing
- OpenAI. Speech-to-text guide (Whisper belgeleri). platform.openai.com
- Tom's Guide. ChatGPT Voice just got more human — and it now translates in real time, 7 Mayıs 2026. tomsguide.com
- 9to5Mac. OpenAI has new voice models that reason, translate, and transcribe as you speak, 7 Mayıs 2026. 9to5mac.com
- Slator. OpenAI Doubles Down on AI Live Speech Translation in ChatGPT. slator.com
- openai/whisper. GitHub Discussions — kısa kliplerde halüsinasyonlar. github.com
- LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — OpenAI gpt-realtime-translate eki, 10 Haziran 2026. livelingo.io/research/benchmark-2026
- LiveLingo. LiveLingo vs ChatGPT: Real-Time Voice Translation Compared (2026). livelingo.io/compare/chatgpt-translation
Fiyatlandırma, kullanılabilirlik, lansman kullanıcıları ve tüketici katmanı erişim detayları 10 Haziran 2026'da yukarıdaki birincil kaynaklara karşı doğrulandı. OpenAI katmanları, fiyatlandırmayı, dil kapsamını ve model davranışını değiştirebilir; herhangi bir belirli sayıya güvenmeden önce güncel durum için bağlantılı kaynaklara başvurun.