LiveLingoLiveLingoTry free

Gemini 3.5 Live Translate: फीचर्स, सीमाएं, कैसे काम करता है (2026)

Google ने 9 जून, 2026 को Gemini 3.5 Live Translate रिलीज़ किया — यह Gemini 3 Pro पर आधारित एक ऑडियो मॉडल है जो 70+ भाषाओं में स्पीच-टू-स्पीच ट्रांसलेशन स्ट्रीम करता है, सोर्स लैंग्वेज को ऑटो-डिटेक्ट करता है और आउटपुट जेनरेट करता है जो स्पीकर की आवाज़ की लय, गति और पिच को बनाए रखता है। यह गाइड बताता है कि यह क्या करता है, Google के अपने मॉडल कार्ड में कौन सी सीमाएं बताई गई हैं, इसे कैसे एक्सेस करें, और अन्य वॉयस-ट्रांसलेशन टूल्स के मुकाबले यह कहां खड़ा है।

विविध पेशेवर एक बहुभाषी वीडियो कॉल पर, स्पीकर्स के बीच लगातार ट्रांसलेटेड स्पीच फ्लो हो रही है।

1. 1. Gemini 3.5 Live Translate क्या है

Gemini 3.5 Live Translate एक स्ट्रीमिंग स्पीच-टू-स्पीच ट्रांसलेशन मॉडल है जिसकी घोषणा Google ने 9 जून, 2026 को की थी। दो विशेषताएं इसे पहले के ट्रांसलेशन प्रोडक्ट्स से अलग बनाती हैं।

पहली, यह ऑडियो-टू-ऑडियो है न कि पुराने स्पीच-टू-टेक्स्ट-टू-ट्रांसलेशन-टू-टेक्स्ट-टू-स्पीच पाइपलाइन की तरह। मॉडल 100-मिलीसेकंड के चंक्स में स्ट्रीम किए गए सोर्स ऑडियो को स्वीकार करता है और आउटपुट के रूप में ट्रांसलेटेड स्पीच प्रोड्यूस करता है। टेक्स्ट ट्रांसक्रिप्ट उपलब्ध हैं, लेकिन केवल स्पोकन आउटपुट के साइडकार के रूप में — कोई स्ट्रीमिंग टेक्स्ट मोड नहीं है और ट्रांसलेटेड ऑडियो में कोई स्पीकर एट्रिब्यूशन नहीं है।

दूसरी, जेनरेटेड वॉयस स्पीकर प्रोसोडी को संरक्षित करने के लिए डिज़ाइन की गई है। Google की घोषणा में आउटपुट का वर्णन है जो स्पीकर की आवाज़ की लय, गति और पिच को बनाए रखता है। व्यावहारिक रूप से यह एक ट्रांसलेटेड वॉयस प्रोड्यूस करता है जो जेनेरिक टेक्स्ट-टू-स्पीच इंजन द्वारा ट्रांसलेशन को ज़ोर से पढ़ने से काफी अधिक प्राकृतिक लगती है — यह उन स्पीच-ट्रांसलेशन सिस्टम्स पर एक वास्तविक फायदा है जिनका ऑडियो आउटपुट स्टैंडर्ड TTS लेयर से गुज़रता है।

मॉडल Gemini 3 Pro पर बनाया गया है। Google DeepMind द्वारा प्रकाशित Gemini 3.5 Audio model card के अनुसार, यह 128K-टोकन कॉन्टेक्स्ट विंडो के साथ ऑडियो इनपुट स्वीकार करता है और 64K टोकन तक ऑडियो + टेक्स्ट आउटपुट प्रोड्यूस करता है। यह 70+ भाषाओं को ऑटो-डिटेक्ट करता है, जिसमें स्पीकर्स के बीच तेज़ भाषा स्विच भी शामिल है, हालांकि उस डिटेक्शन में दस्तावेज़ित कमज़ोरियां हैं (सेक्शन 4 में कवर की गई)।

लॉन्च तीन प्रोडक्ट सर्फेसेस को समानांतर में कवर करता है: Gemini Live API और Google AI Studio के ज़रिए डेवलपर एक्सेस (9 जून, 2026 से पब्लिक प्रीव्यू); Android और iOS पर Google Translate ऐप के ज़रिए कंज्यूमर एक्सेस, उस दिन से ग्लोबली रोल आउट हो रहा है, Android पर नए "listening mode" के साथ; और सेलेक्ट Google Workspace कस्टमर्स के लिए Google Meet के ज़रिए एंटरप्राइज़ एक्सेस प्राइवेट प्रीव्यू में, जहां यह Meet के ट्रांसलेशन कवरेज को 5 भाषाओं से बढ़ाकर 70+ करता है और एक ही मीटिंग के भीतर 2,000+ सोर्स/टार्गेट कॉम्बिनेशन्स को सपोर्ट करता है।

2. 2. यह कैसे काम करता है: ऑडियो-टू-ऑडियो आर्किटेक्चर और प्रोसोडी प्रिज़र्वेशन

तीन आर्किटेक्चरल चॉइसेस Gemini 3.5 Live Translate को पहले के स्ट्रीमिंग-ट्रांसलेशन सिस्टम्स से अलग बनाती हैं।

स्पीच-टू-स्पीच, स्पीच-टू-टेक्स्ट-टू-स्पीच नहीं

पारंपरिक पाइपलाइन्स ऑडियो को स्ट्रीमिंग स्पीच-टू-टेक्स्ट मॉडल के ज़रिए चलाती हैं, ट्रांसक्रिप्ट को मशीन-ट्रांसलेशन मॉडल में फीड करती हैं, फिर अलग टेक्स्ट-टू-स्पीच मॉडल के ज़रिए ट्रांसलेशन को सिंथेसाइज़ करती हैं। हर स्टेज लेटेंसी जोड़ता है और एरर्स जमा करता है। Gemini 3.5 Live Translate इन स्टेप्स को एक ऑडियो मॉडल में फोल्ड करता है। ट्रेड-ऑफ: आउटपुट परमानेंट ऑडियो है, एडिटेबल टेक्स्ट नहीं — एक बार शब्द बोला जाने के बाद, इसे मिड-अटरेंस रिवाइज़ नहीं किया जा सकता।

कंटिन्यूअस स्ट्रीमिंग, टर्न-बेस्ड नहीं

Google की घोषणा मॉडल को एक ऐसे मॉडल के रूप में फ्रेम करती है जो "क्वालिटी सुधारने के लिए कॉन्टेक्स्ट का इंतज़ार करने और स्पीकर के साथ सिंक में रहने के लिए तुरंत ट्रांसलेट करने के बीच ट्रेड-ऑफ को बैलेंस करता है।" Google Translate के पहले के Conversation mode जैसे पुराने कंज्यूमर प्रोडक्ट्स टर्न-बेस्ड थे: टैप करें, बोलें, सिस्टम के फाइनलाइज़ करने और ट्रांसलेशन एमिट करने का इंतज़ार करें, फिर दूसरी पार्टी को टैप करने दें। Gemini 3.5 Live Translate लगातार ट्रांसलेटेड स्पीच एमिट करता है जबकि सोर्स स्पीकर अभी भी बोल रहा होता है, Google "कुछ सेकंड" की देरी का वर्णन करता है।

प्रोसोडी ट्रांसफर

मॉडल सोर्स स्पीकर की वोकल विशेषताओं — आवाज़ की लय, गति, ज़ोर, पिच — को ट्रांसलेटेड ऑडियो में ले जाने के लिए डिज़ाइन किया गया है। यह मुख्य तकनीकी कारण है कि आउटपुट रोबोटिक के बजाय प्राकृतिक लगता है। यह Google के मॉडल कार्ड में डिस्क्लोज़ की गई वॉयस-कंसिस्टेंसी सीमाओं का स्रोत भी है (सेक्शन 4)।

डेवलपर सर्फेस पर, हर सेशन इनपुट के रूप में 16 kHz मोनो पर रॉ 16-बिट PCM ऑडियो का उपयोग करता है और आउटपुट के रूप में 24 kHz मोनो PCM ऑडियो प्रोड्यूस करता है, 100-मिलीसेकंड चंक्स में भेजा जाता है। सभी जेनरेटेड ऑडियो Google के SynthID वॉटरमार्क को कैरी करता है — वेवफॉर्म में बुना गया एक अदृश्य सिग्नेचर जो डाउनस्ट्रीम सिस्टम्स को ऑडियो को मशीन-जेनरेटेड के रूप में पहचानने की अनुमति देता है।

स्मार्टफोन पर स्ट्रीमिंग वॉयस ट्रांसलेशन इंटरफेस दिखाया गया है जिसमें ऑडियो वेवफॉर्म्स और भाषा सेलेक्शन है।

3. 3. Gemini 3.5 Live Translate कहां सबसे मज़बूत है

पांच प्रोडक्ट स्ट्रेंथ्स तुरंत दिखाई देती हैं जब Gemini 3.5 Live Translate की तुलना इसके साथियों से करते हैं।

प्राकृतिक-साउंडिंग ट्रांसलेटेड स्पीच। प्रोसोडी-प्रिज़र्विंग वॉयस उन स्पीच-ट्रांसलेशन सिस्टम्स पर सबसे स्पष्ट फायदा है जिनका ऑडियो आउटपुट जेनेरिक TTS इंजन से गुज़रता है। अगर आपने कोई वॉयस-ट्रांसलेशन ऐप इस्तेमाल किया है जिसका ट्रांसलेटेड ऑडियो फ्लैट नैरेटर की तरह शब्दों की स्ट्रिंग पढ़ने जैसा लगता है, तो कंट्रास्ट तुरंत दिखता है। Gemini 3.5 Live Translate यहां काफी बेहतर है, और अंतर पहले वाक्य पर ही सुनाई देता है।

ऑडियो-टू-ऑडियो सिंप्लिसिटी। स्पीच-ट्रांसलेशन एप्लिकेशन बनाने का मतलब पारंपरिक रूप से स्ट्रीमिंग STT मॉडल (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), ट्रांसलेशन मॉडल, और TTS इंजन को चेन करना था — और हर एक के पार्शियल-एमिट सेमेंटिक्स को मैनेज करना था। Gemini 3.5 Live Translate उस चेन को एक API कॉल से रिप्लेस करता है, एप्लिकेशन कोड और फेलियर सर्फेस दोनों को सिंप्लिफाई करता है।

स्केल पर ऑटो लैंग्वेज डिटेक्शन। 70+ भाषाएं ऑटो-डिटेक्ट होती हैं, यूज़र को पहले से लैंग्वेज पेयर सेट करने की ज़रूरत नहीं। Google की पोज़िशनिंग मल्टी-पार्टी मीटिंग्स जैसे यूज़ केसेस पर ज़ोर देती है जहां स्पीकर्स मिड-कन्वर्सेशन भाषाएं स्विच करते हैं।

डिस्ट्रिब्यूशन। सीधे Google Translate कंज्यूमर ऐप और Google Meet में बिल्ट। एंड यूज़र्स के लिए, इंस्टॉल और डिस्कवरी कॉस्ट लगभग शून्य है — उनके पास पहले से ही ऐप है। Meet कस्टमर्स के लिए, ट्रांसलेशन एक वर्कफ़्लो के अंदर फीचर टॉगल के रूप में आता है जो पहले से इस्तेमाल में है।

वॉटरमार्क्ड आउटपुट। SynthID वॉटरमार्किंग जेनरेटेड स्पीच को डाउनस्ट्रीम कंप्लायंस यूज़ केसेस के लिए AI-जेनरेटेड के रूप में पहचानने योग्य बनाता है, जो रेगुलेटेड इंडस्ट्रीज़ में उपयोगी है जिन्हें AI-जेनरेटेड कंटेंट को ट्रैक करने की ज़रूरत होती है।

4. 4. Google के अपने मॉडल कार्ड में स्वीकार की गई सीमाएं

Google DeepMind द्वारा प्रकाशित Gemini 3.5 Audio model card Gemini 3.5 Live Translate की स्पेसिफिक ज्ञात सीमाओं को दस्तावेज़ित करता है। कार्ड से सीधे उद्धृत करते हुए:

भाषा डिटेक्शन

"Language detection can struggle with non-native accents, similar languages, or rapid language switches।" व्यावहारिक निहितार्थ: अगर स्पीकर का तेज़ एक्सेंट है, या सोर्स लैंग्वेज संबंधित भाषा के करीब है (पुर्तगाली बनाम स्पेनिश, नॉर्वेजियन बनाम स्वीडिश), या कन्वर्सेशन तेज़ी से भाषाएं स्विच करती है, तो डिटेक्टर गलत सोर्स लैंग्वेज चुन सकता है और उसके अनुसार ट्रांसलेट कर सकता है।

मल्टी-स्पीकर सेशन्स में वॉयस कंसिस्टेंसी

"Voices can be inconsistent, and voices may shift after long pauses, change gender, or get stuck on one voice during rapid multi-speaker sessions।" यह कई यूज़ केसेस के लिए सबसे व्यावहारिक रूप से महत्वपूर्ण सीमा है। कई स्पीकर्स के साथ तेज़ टर्न लेने वाली मीटिंग में, मॉडल सभी ट्रांसलेटेड आउटपुट एक ही आवाज़ में प्रोड्यूस कर सकता है — स्पीकर एट्रिब्यूशन खो देता है जिस पर श्रोता कन्वर्सेशन फॉलो करने के लिए निर्भर करते हैं।

नॉइज़ फिल्टरिंग

"Designed to filter out background noise, but not all background audio may be ignored।" रियल-वर्ल्ड एनवायरनमेंट्स अभी भी कुछ कंडिशन्स के तहत लीक हो जाएंगे।

ट्रांसलेशन-मोड कंस्ट्रेंट्स (डेवलपर API)

Google के डेवलपर डॉक्यूमेंटेशन को साइट करने वाले लॉन्च कवरेज के अनुसार, "text input is not supported in translation mode" और मॉडल "drops tool use and system instructions in this mode।" डेवलपर्स के लिए, ट्रांसलेशन API कॉल एक कंस्ट्रेंड सर्फेस है — आप टेक्स्ट नहीं भेज सकते, आप व्यापक Gemini टूल इकोसिस्टम का उपयोग नहीं कर सकते, और आप सिस्टम प्रॉम्प्ट्स इंजेक्ट नहीं कर सकते। ट्रांसलेशन इन, ट्रांसलेशन आउट।

5. 5. LiveLingo 2026 बेंचमार्क से स्वतंत्र मापें

LiveLingo Research ने अपने लॉन्च दिन (9 जून, 2026) पर Gemini 3.5 Live Translate का मूल्यांकन Google Cloud STT v2 + Translation v3, Azure Speech Translation, और Whisper-large + GPT-4o-mini के मूल बेंचमार्क के लिए उपयोग किए गए समान प्रोटोकॉल के खिलाफ किया। पूरा एडेंडम livelingo.io/research/benchmark-2026#comprehension-gemini-live पर प्रकाशित है; हेडलाइन नंबर्स नीचे हैं।

कॉम्प्रिहेंशन फिडेलिटी कंपोज़िट: 4.93 / 5 120 अटरेंसेस और चार लैंग्वेज पेयर्स (en→es, en→zh-CN, en→ja, en→de) में। यह बेंचमार्क पर चार प्रतिस्पर्धी सिस्टम्स में सबसे मज़बूत परिणाम है; अगला निकटतम स्कोर 4.77 है (Google Cloud Translation v3)।

फर्स्ट-ऑडियो लेटेंसी: मीडियन 2,947 ms स्पीच की शुरुआत से पहले ट्रांसलेटेड ऑडियो तक (p10–p90: 2,859–3,104 ms)। यह एक कॉन्स्टेंट ~3-सेकंड स्पीकिंग डिले है, Google के "a few seconds behind" फ्रेमिंग के साथ कंसिस्टेंट।

आउटपुट केवल ट्रांसलेटेड स्पीच है। API में कोई स्ट्रीमिंग टेक्स्ट मोड नहीं है और कोई पर-स्पीकर एट्रिब्यूशन नहीं है। टेक्स्ट ट्रांसक्रिप्ट्स स्पोकन आउटपुट के साइडकार के रूप में उपलब्ध हैं। स्पोकन आउटपुट को एमिट होने के बाद रिवाइज़ नहीं किया जा सकता।

कोड-मिश्रित ऑडियो। एक मंदारिन समाचार क्लिप पर जो 86 सेकंड पर अंग्रेजी सड़क साक्षात्कारों में बदल जाती है, LiveLingo बेंचमार्क ने दर्ज किया कि अनुवाद आउटपुट हर रन में स्विच पर रुक जाता है: आउटपुट भाषा में पहले से मौजूद भाषण न तो अनुवादित होता है और न ही प्रतिलेखित होता है, इसलिए सामग्री के अंतिम 34 सेकंड (क्लिप का ~28%) श्रोता के लिए चुपचाप गायब हो जाते हैं और कोई त्रुटि सामने नहीं आती। OpenAI का gpt-realtime-translate उसी क्लिप पर समान व्यवहार दिखाता है, और OpenAI आउटपुट-भाषा भाषण को छोड़ना इच्छित बताता है; यह मिश्रित-भाषा ऑडियो पर वर्तमान स्पीच-टू-स्पीच अनुवादकों की एक संरचनात्मक सीमा है।

लेट-रिज़ॉल्विंग सिंटैक्स पर फैक्चुअल इन्वर्शन। मंदारिन बिज़नेस-स्पीच क्लिप पर, 15% सेल्स इंक्रीज़ का वर्णन करने वाला वाक्य अंग्रेज़ी में 15% तक सेल्स बढ़ाने के गोल के रूप में रेंडर हुआ। यह एरर क्लास है जो इरिवर्सिबल मिड-सेंटेंस ऑडियो कमिटमेंट प्रोड्यूस करता है जब सोर्स लैंग्वेज मीनिंग-कैरीइंग एलिमेंट (पोलैरिटी, टाइम रेफरेंस, सब्जेक्ट) को वाक्य में देर तक पोस्टपोन करती है।

ये स्वतंत्र मापें हैं, Google के अपने नंबर्स नहीं; मेथडोलॉजी और रॉ पर-अटरेंस डेटा प्रकाशित एडेंडम में हैं।

6. 6. Gemini 3.5 Live Translate को कैसे एक्सेस करें

कंज्यूमर — Google Translate ऐप

Android या iOS पर Google Translate ऐप को इसके लेटेस्ट वर्शन में अपडेट करें। Live Translate मोड 9 जून, 2026 से ग्लोबली रोल आउट हो रहा है — उपलब्धता आपके रीजन में स्टोर रोलआउट शेड्यूल पर निर्भर करती है। Android पर, एक नया "listening mode" आपको अपने डिवाइस के ईयरपीस के ज़रिए सीधे ट्रांसलेटेड स्पीच सुनने देता है।

डेवलपर — Gemini Live API + Google AI Studio

मॉडल Gemini Live API और Google AI Studio के ज़रिए पब्लिक प्रीव्यू में उपलब्ध है। लॉन्च कवरेज के अनुसार, इंटीग्रेशन कंस्ट्रेंट्स स्पेसिफिक हैं: केवल ऑडियो इनपुट (ट्रांसलेशन मोड में कोई टेक्स्ट इनपुट नहीं), कोई टूल यूज़ या सिस्टम इंस्ट्रक्शन्स नहीं, रॉ 16-बिट PCM 16 kHz मोनो इनपुट 100 ms पर चंक्ड, 24 kHz PCM आउटपुट। करंट कोटास और प्राइसिंग के लिए Google AI Studio देखें।

एंटरप्राइज़ — Google Meet

Gemini 3.5 Live Translate 9 जून, 2026 तक सेलेक्ट Google Workspace कस्टमर्स के लिए प्राइवेट प्रीव्यू में है। जहां इनेबल्ड है, यह Meet के ट्रांसलेशन कवरेज को 5 भाषाओं से बढ़ाकर 70+ भाषाओं तक करता है और एक ही मीटिंग के भीतर 2,000+ सोर्स/टार्गेट कॉम्बिनेशन्स को सपोर्ट करता है। उपलब्धता रोलिंग है, यूनिवर्सल नहीं।

7. 7. कब Gemini 3.5 का उपयोग करें — और कब दूसरा टूल बेहतर फिट करता है

कब Gemini 3.5 Live Translate सही चॉइस है

  • आप ट्रांसलेटेड स्पीच चाहते हैं, ट्रांसलेटेड टेक्स्ट नहीं। नेचुरल-वॉयस आउटपुट प्रोडक्ट का सबसे बड़ा फायदा है।
  • आप पहले से Google Translate ऐप या Google Meet में हैं। इंटीग्रेशन डिस्कवर और यूज़ करने के लिए ज़ीरो-कॉस्ट है।
  • आपकी कन्वर्सेशन्स वन-टू-वन हैं, या स्पीकर्स के बीच पॉज़ेस के साथ क्लियर टर्न-टेकिंग हैं। Google के मॉडल कार्ड में डिस्क्लोज़ की गई वॉयस-कंसिस्टेंसी सीमाएं इन कॉन्टेक्स्ट्स में कमज़ोर हैं।
  • आप एक डेवलपर एप्लिकेशन बना रहे हैं जहां STT → MT → TTS चेन को एक सिंगल API में सिंप्लिफाई करना हर स्टेज पर फाइन-ग्रेन्ड कंट्रोल से ज़्यादा मायने रखता है।
  • आप ऑडियो आउटपुट में स्पीकर एट्रिब्यूशन के बिना, और स्ट्रीमिंग टेक्स्ट ट्रांसक्रिप्ट्स के बिना काम चला सकते हैं।

कब आप दूसरा टूल प्राथमिकता दे सकते हैं

  • आपको ऑडियो के साथ या बजाय स्ट्रीमिंग टेक्स्ट चाहिए। स्ट्रीमिंग टेक्स्ट वह है जो अधिकतर प्रोडक्शन इंटरफेसेस लाइव कैप्शनिंग, कॉन्फ्रेंस ट्रांसलेशन, और एक्सेसिबिलिटी सिनारियोस के दौरान स्क्रीन पर दिखाते हैं। Gemini 3.5 Live Translate का टेक्स्ट केवल साइडकार है।
  • आपको ट्रांसलेटेड आउटपुट में पर-स्पीकर एट्रिब्यूशन चाहिए। मॉडल कार्ड का "may get stuck on one voice during rapid multi-speaker sessions" डिस्क्लोज़र इसे मीटिंग्स के लिए एक वास्तविक जोखिम बनाता है।
  • आप ऐसी कन्वर्सेशन्स ट्रांसलेट करते हैं जहां एक्सप्रेसिवनेस से ज़्यादा स्टेबिलिटी मायने रखती है। ऑडियो आउटपुट को मिड-अटरेंस रिवाइज़ नहीं किया जा सकता, इसलिए लेट-रिज़ॉल्विंग सिंटैक्स वाली भाषाओं पर (मंदारिन पोलैरिटी वाक्य के अंत में, जापानी वर्ब वाक्य के अंत में), एक अर्ली कमिटमेंट मीनिंग को इन्वर्ट कर सकता है। बेंचमार्क एडेंडम एक ऐसे केस को दस्तावेज़ित करता है।
  • आपको ट्रांसलेटेड फोन कॉल्स चाहिए — ट्रांसलेशन के साथ PSTN नंबर डायल करना लाइन पर चल रहा है। Gemini Live API डेवलपर्स के लिए एक बिल्डिंग ब्लॉक है, फोन-कॉल प्रोवाइडर नहीं।

एक ईमानदार स्वीकारोक्ति। LiveLingo, यह गाइड प्रकाशित करने वाला प्रोडक्ट, इन आयामों में से अधिकतर पर दूसरे कॉलम में फिट करता है: स्ट्रीमिंग टेक्स्ट + ऑडियो आउटपुट, पर-स्पीकर एट्रिब्यूशन, मोनोटोनिक गेटेड कमिट ताकि डिस्प्लेड ट्रांसलेशन्स कभी रिट्रैक्ट न हों, ट्रांसलेटेड आउटबाउंड फोन कॉल्स। LiveLingo का ऑडियो आउटपुट, हालांकि, होस्ट प्लेटफॉर्म के डिफॉल्ट टेक्स्ट-टू-स्पीच इंजन (Apple डिवाइसेस पर iOS नेटिव) का उपयोग करता है, जो Gemini 3.5 Live Translate की जेनरेटेड वॉयस से कम प्राकृतिक लगता है। यह एक वास्तविक फायदा है जो Google ने आज शिप किया है। livelingo.io/compare/google-translate पर स्पेसिफिकेशन्स की साइड-बाई-साइड तुलना करें, या livelingo.io/research/benchmark-2026 पर मापे गए बेंचमार्क नंबर्स देखें।

8. 8. अक्सर पूछे जाने वाले प्रश्न

Gemini 3.5 Live Translate क्या है?

Gemini 3.5 Live Translate एक स्ट्रीमिंग स्पीच-टू-स्पीच ट्रांसलेशन मॉडल है जिसे Google ने 9 जून, 2026 को रिलीज़ किया। यह Gemini 3 Pro पर बनाया गया है, ट्रांसलेटेड ऑडियो जेनरेट करता है जो स्पीकर की आवाज़ की लय, गति और पिच को संरक्षित करता है, और 70+ भाषाओं को ऑटो-डिटेक्ट करता है। यह Gemini Live API और Google AI Studio के ज़रिए डेवलपर्स के लिए (पब्लिक प्रीव्यू), Android और iOS पर Google Translate ऐप के ज़रिए कंज्यूमर्स के लिए, और Google Meet के ज़रिए सेलेक्ट Google Workspace कस्टमर्स के लिए (प्राइवेट प्रीव्यू) उपलब्ध है।

Gemini 3.5 Live Translate कौन सी भाषाओं को सपोर्ट करता है?

70+ भाषाएं, ऑटो-डिटेक्टेड। Google Meet में विशेष रूप से, यह पहले के कवरेज को 5 भाषाओं से बढ़ाकर 70+ भाषाओं तक करता है और एक ही मीटिंग के भीतर 2,000+ सोर्स/टार्गेट कॉम्बिनेशन्स को सपोर्ट करता है।

Gemini 3.5 Live Translate की कीमत कितनी है?

कंज्यूमर्स के लिए, Google Translate ऐप मुफ्त है। Gemini Live API और Google AI Studio के ज़रिए डेवलपर एक्सेस Google के स्टैंडर्ड API रेट्स के अनुसार प्राइस्ड है — करंट प्राइसिंग के लिए Google AI Studio चेक करें। Google Meet के ज़रिए एंटरप्राइज़ एक्सेस 9 जून, 2026 तक सेलेक्ट Google Workspace कस्टमर्स के लिए प्राइवेट प्रीव्यू में गेटेड है।

Gemini 3.5 Live Translate मल्टिपल स्पीकर्स को कैसे हैंडल करता है?

Google DeepMind द्वारा प्रकाशित Gemini 3.5 Audio model card के अनुसार: "Voices can be inconsistent, and voices may shift after long pauses, change gender, or get stuck on one voice during rapid multi-speaker sessions।" व्यावहारिक रूप से: वन-टू-वन कन्वर्सेशन्स और क्लियर पॉज़ेस के साथ टर्न-टेकिंग डिस्कशन्स अच्छी तरह काम करते हैं; रैपिड मल्टी-स्पीकर सिनारियोस एक दस्तावेज़ित कमज़ोरी हैं। ट्रांसलेटेड ऑडियो आउटपुट में कोई पर-स्पीकर एट्रिब्यूशन नहीं है।

क्या Gemini 3.5 Live Translate टेक्स्ट आउटपुट करता है?

प्राइमरी आउटपुट ट्रांसलेटेड स्पीच है। टेक्स्ट ट्रांसक्रिप्ट्स उपलब्ध हैं, लेकिन केवल स्पोकन आउटपुट के साइडकार के रूप में — कोई स्ट्रीमिंग टेक्स्ट मोड नहीं है, और ट्रांसलेशन-मोड API टेक्स्ट इनपुट स्वीकार नहीं करता।

Gemini 3.5 Live Translate की मापी गई लेटेंसी क्या है?

Google सिस्टम को "a few seconds behind the speaker" रहने के रूप में वर्णित करता है। लॉन्च दिन पर LiveLingo Research द्वारा स्वतंत्र मापन ने 120 टेस्ट अटरेंसेस में मीडियन फर्स्ट-ऑडियो लेटेंसी 2,947 ms (p10–p90: 2,859–3,104 ms) रिकॉर्ड की — लगभग 3-सेकंड कॉन्स्टेंट स्पीकिंग डिले। स्रोत: livelingo.io/research/benchmark-2026

Gemini 3.5 Live Translate कब रिलीज़ हुआ था?

Google ने 9 जून, 2026 को Gemini 3.5 Live Translate की घोषणा की और रोल आउट शुरू किया, Gemini Live API और Google AI Studio (डेवलपर पब्लिक प्रीव्यू), Android और iOS पर Google Translate ऐप (उस दिन से ग्लोबल रोलआउट शुरू), और Google Meet (सेलेक्ट Workspace कस्टमर्स के लिए प्राइवेट प्रीव्यू) में।

9. 9. स्रोत

  • Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Google blog, June 9, 2026. blog.google
  • Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
  • MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, June 9, 2026. marktechpost.com
  • LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, June 9, 2026. livelingo.io/research/benchmark-2026

भाषा की बाधा को तोड़ने के लिए तैयार हैं?

LiveLingo को मुफ्त में आज़माएं — हर दिन 5 मिनट का रियल-टाइम वॉयस ट्रांसलेशन, बिना क्रेडिट कार्ड के। Pro में अपग्रेड करें और पाएं ट्रांसलेटेड कॉल्स, AI मीटिंग मेमो, और महीने में 300 मिनट।

LiveLingo मुफ्त में आज़माएं
Gemini 3.5 Live Translate: फीचर्स, सीमाएं, कैसे काम करता है (2026) | LiveLingo