OpenAI Live Translation (2026): ChatGPT Voice व gpt-realtime-translate

1. 1. OpenAI जून 2026 में लाइव अनुवाद के लिए क्या प्रदान करता है

जून 2026 तक तीन अलग-अलग सतहें उपलब्ध हैं:

ChatGPT Voice — लाइव ट्रांसलेट (उपभोक्ता)। लाइव अनुवाद ChatGPT के Voice मोड में बिल्ट-इन है। उपयोगकर्ता ChatGPT ऐप मैसेज कंपोज़र में Voice आइकन पर टैप करता है, असिस्टेंट से भाषाओं के बीच अनुवाद करने को कहता है, और मॉडल तब तक बातचीत के दौरान अनुवाद करता रहता है जब तक उसे रोकने या स्विच करने को न कहा जाए। इसके लिए पेड ChatGPT सब्सक्रिप्शन की आवश्यकता है — Plus, Teams, Enterprise, या Edu (OpenAI उपभोक्ता मूल्य निर्धारण पेज; Plus लगभग $20/माह)। हमारी जांच के अनुसार 10 जून, 2026 तक कोई फ्री-टियर लाइव-ट्रांसलेट उपभोक्ता पहुंच नहीं है। इंटरफेस बातचीत के रूप में है न कि समर्पित ट्रांसलेटर UI के रूप में; कोई सोर्स/टारगेट भाषा जोड़ी सिलेक्टर नहीं है, कोई दो-कॉलम सोर्स-और-अनुवादित ट्रांसक्रिप्ट नहीं है, और कोई कॉल-डायलिंग नहीं है।

`gpt-realtime-translate` (समर्पित API मॉडल)। 7 मई, 2026 को, OpenAI ने Realtime API के अंदर एक उद्देश्य-निर्मित स्ट्रीमिंग स्पीच-टू-स्पीच अनुवाद मॉडल जारी किया। OpenAI की घोषणा के अनुसार, मॉडल को "हजारों घंटों के पेशेवर दुभाषिया ऑडियो पर प्रशिक्षित किया गया था" और इसे "केवल अनुवाद बने रहने और स्पीच उत्पन्न करने से पहले पर्याप्त संदर्भ की प्रतीक्षा करने" के लिए कॉन्फ़िगर किया गया है। यह 70+ इनपुट भाषाओं को 13 आउटपुट भाषाओं में अनुवादित करने का समर्थन करता है और $0.034 प्रति मिनट इनपुट ऑडियो (OpenAI API मूल्य निर्धारण) पर मूल्य निर्धारित है। OpenAI की घोषणा में नामित दस्तावेज़ित लॉन्च पार्टनर: Deutsche Telekom (बहुभाषी ग्राहक सहायता) और Vimeo (उत्पाद-शिक्षा वीडियो का रियल-टाइम अनुवाद)।

Whisper + GPT-4o-mini (DIY पाइपलाइन)। मूल डेवलपर पथ उपलब्ध रहता है। Whisper-large स्पीच-टू-टेक्स्ट को संभालता है (OpenAI के स्पीच-टू-टेक्स्ट गाइड के अनुसार 99 भाषाएं; OpenAI के API मूल्य निर्धारण पेज पर $0.006/मिनट ऑडियो); GPT-4o-mini अनुवाद को संभालता है (प्रति-टोकन मूल्य निर्धारण, समान स्रोत)। संयुक्त रूप से, वे मनमानी भाषा जोड़ियों का समर्थन करते हैं — `gpt-realtime-translate` की 13-आउटपुट सीमा नहीं — और डेवलपर को चंकिंग, प्रॉम्प्टिंग, शब्दावली हैंडलिंग, और आउटपुट फॉर्मेट पर पूरा नियंत्रण देते हैं। लागत इंजीनियरिंग है: Whisper का API निरंतर स्पीच को उच्चारण सीमाओं में विभाजित नहीं करता, इसलिए डेवलपर वॉइस-एक्टिविटी डिटेक्शन (VAD), एंडपॉइंट लॉजिक, हैलुसिनेशन फिल्टरिंग, स्ट्रीमिंग UI, और टेलीफोनी प्रदान करता है।

2. 2. ChatGPT Voice — लाइव ट्रांसलेट मोड (उपभोक्ता)

लाइव अनुवाद के साथ ChatGPT Voice iOS, Android, और वेब पर उपभोक्ता ChatGPT ऐप के अंदर चलता है। उपयोगकर्ता एक Voice सेशन खोलता है और असिस्टेंट को अनुवाद निर्देश देता है जैसे "अंग्रेजी और जापानी के बीच अनुवाद करें।" मॉडल फिर प्रत्येक स्पीकर के उच्चारण को अनुरोधित लक्ष्य भाषा में निरंतर अनुवाद करता है, टर्न के पार, जब तक उपयोगकर्ता इसे रोकने, भाषाएं स्विच करने, या सेशन समाप्त करने को न कहे।

पहुंच के लिए पेड ChatGPT सब्सक्रिप्शन की आवश्यकता है। लाइव ट्रांसलेट के साथ अपग्रेडेड Voice मोड ChatGPT Plus (OpenAI के उपभोक्ता मूल्य निर्धारण पेज के अनुसार लगभग $20/माह), Teams, Enterprise, और Edu उपयोगकर्ताओं के लिए उपलब्ध है; पहुंच मैसेज कंपोज़र में Voice आइकन के माध्यम से शुरू की जाती है (chatgpt.com/features/voice पर दस्तावेज़ित और Tom's Guide और 9to5Mac के लॉन्च कवरेज द्वारा पुष्ट)। 10 जून, 2026 तक हमारी जांच में लाइव-ट्रांसलेट फीचर फ्री टियर पर सामने नहीं आया है।

इंटरफेस आपको क्या देता है, और क्या नहीं। उपयोगकर्ता अनुभव एक बातचीत का Voice सेशन है — एक-पर-एक क्रॉस-भाषा एक्सचेंज या छोटी व्यक्तिगत बातचीत के लिए प्राकृतिक। इसमें सोर्स/टारगेट भाषा पिकर, दो-कॉलम सोर्स-और-अनुवादित ट्रांसक्रिप्ट जोड़ी जिसे आप सुनते समय पढ़ सकते हैं, सेशन एक्सपोर्ट, मीटिंग-मेमो, या आउटबाउंड फोन-कॉल डायलिंग के साथ समर्पित ट्रांसलेटर UI शामिल नहीं है। मॉडल वॉइस एक्टिविटी और टर्न-टेकिंग को आंतरिक रूप से संभालता है; उपयोगकर्ता का एंडपॉइंट टाइमिंग, शब्दावली, या प्रॉम्प्ट स्टाइल पर कोई स्पष्ट नियंत्रण नहीं है।

अंतर्निहित मॉडल और व्यवहार। ChatGPT Voice का लाइव ट्रांसलेट OpenAI के Realtime मॉडल परिवार पर बनाया गया है। 7 मई, 2026 रिलीज़ के लॉन्च कवरेज (Tom's Guide, 9to5Mac, Slator) से संकेत मिलता है कि उपभोक्ता Voice सतह उसी Realtime इन्फ्रास्ट्रक्चर का उपयोग करती है जो `gpt-realtime-translate` को होस्ट करती है, जिसके ऊपर उपभोक्ता-ऐप-लेयर वॉइस एक्टिविटी डिटेक्शन, बातचीत स्थिति, और UI रेंडरिंग है। 10 जून, 2026 तक OpenAI के सार्वजनिक मॉडल दस्तावेज़ीकरण में उपभोक्ता Voice ट्रांसलेट वेरिएंट के लिए अलग मॉडल कार्ड का वर्णन नहीं है।

3. 3. gpt-realtime-translate — समर्पित API मॉडल

`gpt-realtime-translate` OpenAI का पहला उद्देश्य-निर्मित अनुवाद मॉडल है, जो 7 मई, 2026 को Realtime API के अंदर जारी किया गया। यह DIY Whisper + GPT-4o-mini रूट से अलग है क्योंकि स्ट्रीमिंग स्पीच-टू-स्पीच ट्रांसफॉर्मेशन दो स्वतंत्र रूप से प्रॉम्प्ट किए गए API कॉल के बजाय एक ही मॉडल में होता है।

विशिष्टताएं। OpenAI के डेवलपर कुकबुक के अनुसार: 70+ इनपुट भाषाएं ऑटो-डिटेक्ट, 13 आउटपुट भाषाएं। मूल्य निर्धारण $0.034 प्रति मिनट इनपुट ऑडियो। अनुवादित ऑडियो प्लस सोर्स स्पीच और अनुवादित आउटपुट दोनों के टेक्स्ट ट्रांसक्रिप्ट लौटाता है — एक ट्रांसक्रिप्ट सतह जो उपभोक्ता ChatGPT Voice मोड एक्सपोज़ नहीं करता। कोई स्पीकर एट्रिब्यूशन नहीं और कोई वॉइस सिलेक्शन नहीं। बोला गया आउटपुट उत्सर्जित होने के बाद संशोधित नहीं किया जा सकता।

प्रशिक्षण और व्यवहार। OpenAI बताता है कि मॉडल को "हजारों घंटों के पेशेवर दुभाषिया ऑडियो पर प्रशिक्षित किया गया था, जो इसे केवल अनुवाद बने रहने और स्पीच उत्पन्न करने से पहले पर्याप्त संदर्भ की प्रतीक्षा करने में मदद करता है।" OpenAI के अपने मूल्यांकन में, मॉडल ने हिंदी, तमिल, और तेलुगु पर परीक्षण किए गए किसी भी अन्य मॉडल की तुलना में 12.5% कम Word Error Rates दिए — रिलीज़ की दस्तावेज़ित भारतीय-भाषा शक्ति।

अनुवाद-मोड बाधाएं। OpenAI कुकबुक के अनुसार, अनुवाद-मोड API कॉल सामान्य Realtime API उपयोग की तुलना में एक बाधित सतह है। अनुवाद मोड में टेक्स्ट इनपुट समर्थित नहीं है, और टूल उपयोग और सिस्टम निर्देश अक्षम हैं — इनपुट ऑडियो है, आउटपुट ऑडियो प्लस ट्रांसक्रिप्ट है, और मॉडल सामान्य वॉइस असिस्टेंट के बजाय समर्पित दुभाषिया के रूप में व्यवहार करता है।

4. 4. Whisper + GPT-4o-mini — DIY पाइपलाइन

Whisper + GPT-4o-mini रूट उपलब्ध रहता है और उन डेवलपर्स के लिए सही विकल्प बना रहता है जिन्हें समर्पित अनुवाद मॉडल द्वारा प्रदान नहीं किए जाने वाले व्यवहार की आवश्यकता है: 13-भाषा सीमा के बाहर मनमानी आउटपुट भाषाएं, बारीक प्रॉम्प्ट और शब्दावली नियंत्रण, कस्टम चंकिंग रणनीतियां, या टूल उपयोग जैसी अन्य Realtime API क्षमताओं के साथ एकीकरण।

विशिष्टताएं। Whisper-large स्पीच-टू-टेक्स्ट के लिए 99 इनपुट भाषाओं का समर्थन करता है (OpenAI स्पीच-टू-टेक्स्ट गाइड) $0.006 प्रति मिनट ऑडियो (OpenAI मूल्य निर्धारण पेज) पर। GPT-4o-mini अनुवाद चरण को प्रति-टोकन मूल्य निर्धारण (OpenAI मूल्य निर्धारण पेज पर भी) के साथ संभालता है। दो सेवाएं स्वतंत्र नेटवर्क कॉल हैं; कुल प्रति-मिनट लागत ट्रांसक्रिप्ट लंबाई पर निर्भर करती है लेकिन आमतौर पर अंग्रेजी-लक्ष्य उपयोग के लिए `gpt-realtime-translate` से कम होती है, और अधिक इंजीनियरिंग प्रयास।

डेवलपर क्या प्रदान करता है। Whisper + GPT-4o-mini के ऊपर प्रोडक्शन रियल-टाइम वॉइस अनुवाद के लिए निम्नलिखित घटकों की आवश्यकता होती है, जिनमें से कोई भी OpenAI शिप नहीं करता:

वॉइस एक्टिविटी डिटेक्शन (VAD)। Whisper का API पूर्ण ऑडियो चंक पर ट्रांसक्रिप्शन सरफेस करता है लेकिन निरंतर स्पीच को उच्चारण सीमाओं में विभाजित नहीं करता; डेवलपर प्रत्येक चंक कब भेजना है यह तय करने के लिए अलग VAD प्रदान करता है। इसके बिना, उच्चारण कब समाप्त होता है इसका कोई संकेत नहीं है।
एंडपॉइंट लॉजिक। अधिक ऑडियो की प्रतीक्षा करना है (कम विलंबता, अधिक संशोधन) या जल्दी कमिट करना है (अधिक विलंबता, कम संशोधन)। ट्रेड-ऑफ उपयोगकर्ता अनुभव को परिभाषित करता है।
हैलुसिनेशन फिल्टरिंग। Whisper को छोटी क्लिप पर अंग्रेजी फिलर टेक्स्ट हैलुसिनेट करने की व्यापक रिपोर्ट है — सामान्य आर्टिफैक्ट्स में "Thanks for watching!" और "Subscribe!" शामिल हैं, जो इसके प्रशिक्षण कॉर्पस में YouTube सामग्री के लिए जिम्मेदार हैं; छोटी क्लिप पर हैलुसिनेशन के openai/whisper GitHub चर्चा देखें। प्रोडक्शन डिप्लॉयमेंट के लिए इन्हें फिल्टर करना आवश्यक है।
स्ट्रीमिंग UI प्रिमिटिव्स। एक गेटेड-कमिट ओवरले ताकि प्रदर्शित टेक्स्ट वापस न जाए, आंशिक चंक का संचय, स्क्रॉल व्यवहार, और सोर्स-बनाम-अनुवादित डिस्प्ले।
फोन-कॉल उपयोग के लिए टेलीफोनी एकीकरण (Twilio, Telnyx, या समान), द्विदिशीय ऑडियो ब्रिजिंग और प्रति-न्यायाधिकार कॉल-रिकॉर्डिंग प्रकटीकरण अनुपालन सहित।
लागत निगरानी + दर-सीमा हैंडलिंग। निरंतर उपयोग पर, प्रति-मिनट लागत फ्लैट सब्सक्रिप्शन से अधिक हो सकती है, और प्रति-खाता दर सीमाओं के लिए बैकऑफ रणनीतियों की आवश्यकता होती है।

5. 5. स्वतंत्र मापन पर वे कैसा प्रदर्शन करते हैं

हमने क्या मापा (और क्या नहीं)। नीचे के नंबर कच्चे `gpt-realtime-translate` Realtime API एंडपॉइंट के लिए हैं, Python SDK के माध्यम से प्रोग्रामेटिक रूप से एक्सेस किए गए, LiveLingo बेंचमार्क में हर API-टियर सिस्टम पर समान रूप से लागू समान एनर्जी-VAD उच्चारण सीमाओं के साथ। हमने ChatGPT Voice उपभोक्ता ऐप को अलग से नहीं मापा। ChatGPT Voice समान Realtime इन्फ्रास्ट्रक्चर पर बनाया गया है लेकिन उपभोक्ता सतह अपना खुद का क्लाइंट-साइड VAD, बातचीत स्थिति, UI रेंडरिंग जोड़ती है, और सर्वर-साइड स्मूदिंग लागू कर सकती है जिसकी हमारी कोई प्रोग्रामेटिक पहुंच नहीं है। ChatGPT Voice उपयोगकर्ता API-टियर नंबर रिपोर्ट की तुलना में अलग कथित विलंबता, लैग ड्रिफ्ट, और कोड-स्विचिंग व्यवहार देख सकता है। जहां यह सेक्शन विशिष्ट व्यवहार (ड्रिफ्ट, कोड-स्विच साइलेंस) का हवाला देता है, उन्हें Realtime API एंडपॉइंट पर डेवलपर-अनुभव फ्लोर के रूप में मानें, ChatGPT-Voice उपभोक्ता सीलिंग के रूप में नहीं। Whisper + GPT-4o-mini DIY पाइपलाइन नंबर समान रूप से API-टियर हैं — वे दर्शाते हैं कि एक डेवलपर एक नाइव बेसलाइन पाइपलाइन असेंबल करने के बाद क्या अनुभव करता है, हैंड-ट्यूंड प्रोडक्शन सिस्टम नहीं।

पुनरुत्पादनीयता। इस सेक्शन में हर नंबर समान तीन 120-सेकंड VOA पब्लिक-डोमेन ऑडियो क्लिप, समान Realtime API एंडपॉइंट, और मूल चार-सिस्टम बेंचमार्क के लिए उपयोग किए गए समान Python हार्नेस से पुनरुत्पादित होता है। ऑडियो (`audio.zip`), कच्चा प्रति-उच्चारण JSON (`openai-realtime-results.json`), और पद्धति livelingo.io/research/benchmark-2026 पर प्रकाशित हैं।

gpt-realtime-translate — मापा गया व्यवहार

परीक्षण किए गए किसी भी सिस्टम का सबसे तेज़ पहला-ऑडियो। सभी 120 मूल्यांकित सेशन में स्पीच की शुरुआत से पहले अनुवादित ऑडियो तक मीडियन 711 ms (p10–p90: 485–1,012 ms)। संदर्भ के लिए, Gemini 3.5 Live Translate ने समान मेट्रिक पर ~2.9 s मापा — `gpt-realtime-translate` पहले आउटपुट के लिए लगभग चार गुना तेज़ है। गति इस मॉडल की वास्तविक शक्ति है।

समझ निष्ठा कंपोज़िट: 4.53 / 5। दो स्वतंत्र फ्रंटियर LLM जजों (GPT-4o, Gemini 2.5 Flash) द्वारा स्कोर किया गया, मूल चार-सिस्टम बेंचमार्क के समान रूब्रिक और जज प्रॉम्प्ट का उपयोग करते हुए, 120 उच्चारण और चार भाषा जोड़ियों (en→es, en→zh-CN, en→ja, en→de) में। यह मापे गए छह सिस्टम का सबसे कम स्कोर था। सेल स्तर पर LiveLingo के खिलाफ हेड-टू-हेड: 4 जीत, 80 टाई, 36 हार। आवर्ती त्रुटि वर्ग: उच्चारण शुरुआत में अतिरिक्त वाक्यांश जोड़े गए, अर्थ उलटाव (जैसे "I was stressed about work" को तनावग्रस्त होने की इच्छा के रूप में प्रस्तुत करना), और उचित नामों को सामान्य संज्ञाओं से बदलना।

LiveLingo 2026 बेंचमार्क पर छह-सिस्टम तुलना (120 उच्चारण, चार भाषा जोड़ियां, 2-जज कंपोज़िट)। कच्चा डेटा: livelingo.io/research/benchmark-2026।

सिस्टम	समझ (0–5)	पहला-ऑडियो / TTF विलंबता	आउटपुट सतह
LiveLingo	4.96	1,518 ms (कमिटेड ट्रांसक्रिप्ट)	स्ट्रीमिंग टेक्स्ट + ऑडियो
Gemini 3.5 Live Translate	4.93	~3,100 ms (TTF)	ऑडियो (टेक्स्ट साइडकार)
Google Cloud STT v2 + Translate v3	4.77	~26,736 ms (फाइनल ट्रांसक्रिप्ट)	ट्रांसक्रिप्ट
Azure Speech Translation	4.65	~4,755 ms (फाइनल ट्रांसक्रिप्ट)	ट्रांसक्रिप्ट
Whisper + GPT-4o-mini (DIY)	4.63	2,720 ms (फाइनल ट्रांसक्रिप्ट)	ट्रांसक्रिप्ट
OpenAI gpt-realtime-translate	4.53	~3,800 ms (TTF)	ऑडियो + ट्रांसक्रिप्ट

निरंतर स्पीच पर लैग ड्रिफ्ट। पहले-आउटपुट की गति उत्कृष्ट है, लेकिन विस्तारित ऑडियो पर अनुवादित वॉइस प्रगतिशील रूप से स्पीकर से पीछे पड़ जाती है क्योंकि अनअनुवादित बैकलॉग जमा होता है। प्रत्येक सोर्स-उच्चारण अंत से उस उच्चारण के लिए अनुवादित स्पीच के आगमन तक मापना: मीडियन 3.8 s, घने pt→en VOA क्लिप पर 20.3 s तक पीछे ड्रिफ्ट करना। यह ट्रेड-ऑफ है जो ऑडियो-टू-ऑडियो आर्किटेक्चर बनाता है — स्पीच आउटपुट प्राकृतिक रूप से सिंथेसाइज़्ड वॉइस की बोलने की दर से बाधित होता है, इसलिए मॉडल मानव गति से तेज़ "कैच अप" नहीं कर सकता।

कोड-स्विच्ड स्पीच विफलता। OpenAI के डेवलपर दस्तावेज़ीकरण के अनुसार, मॉडल उस स्पीच को छोड़ सकता है जो पहले से ही आउटपुट भाषा में है। LiveLingo बेंचमार्क में zh→en VOA क्लिप पर, यह 86-सेकंड मार्क पर साइलेंस के रूप में सामने आया, जब सोर्स अंग्रेजी स्पीच में स्विच हुआ — मॉडल चुप हो गया और अंग्रेजी सामग्री को अनुवादित आउटपुट में पास नहीं किया। Gemini 3.5 Live Translate समान क्लिप पर समान गैप प्रदर्शित करता है; यह ऑडियो-टू-ऑडियो समर्पित अनुवाद मॉडल के लिए एक वर्ग मुद्दा है (नीचे कॉलआउट देखें)। पाइपलाइन जो स्ट्रीमिंग टेक्स्ट ट्रांसक्रिप्ट सरफेस करती हैं कोड-स्विच्ड सामग्री को इसे छोड़ने के बजाय प्रदर्शित ट्रांसक्रिप्ट में पास कर सकती हैं।

आउटपुट सतहें। अनुवादित ऑडियो प्लस सोर्स और आउटपुट दोनों के टेक्स्ट ट्रांसक्रिप्ट — Gemini 3.5 Live Translate के ऑडियो-ओनली API की तुलना में ट्रांसक्रिप्ट-फर्स्ट प्रोडक्ट सतह के करीब। कोई स्पीकर एट्रिब्यूशन नहीं। कोई वॉइस सिलेक्शन नहीं। बोला गया आउटपुट उत्सर्जित होने के बाद संशोधित नहीं किया जा सकता।

ऑडियो-टू-ऑडियो साझा सीमाओं के साथ एक वर्ग है। इस सेक्शन में व्यवहार `gpt-realtime-translate` के लिए अनूठे नहीं हैं। Google का Gemini 3.5 Live Translate, और कोई भी अन्य वर्तमान स्पीच-टू-स्पीच ऑडियो-टू-ऑडियो अनुवाद मॉडल, ट्रेड-ऑफ के समान वर्ग को विरासत में लेता है: (1) निरंतर स्पीच पर आउटपुट-पेस लैग ड्रिफ्ट, क्योंकि अनुवादित ऑडियो बोलने की दर से बाधित होता है और मानव गति से तेज़ कैच अप नहीं कर सकता; (2) कोड-स्विच साइलेंस, क्योंकि मॉडल को आउटपुट भाषा में पहले से मौजूद स्पीच को छोड़ने के लिए कॉन्फ़िगर किया गया है; (3) सिंथेसाइज़्ड ऑडियो में कोई इन-लाइन स्पीकर एट्रिब्यूशन नहीं; (4) अपरिवर्तनीय मिड-उच्चारण कमिट, क्योंकि बोला गया ऑडियो उस तरह वापस नहीं लिया जा सकता जैसे प्रदर्शित टेक्स्ट को किया जा सकता है। सिस्टम जो स्ट्रीमिंग टेक्स्ट ट्रांसक्रिप्ट सरफेस करते हैं — OpenAI के DIY Whisper + GPT-4o-mini रूट और LiveLingo जैसे स्ट्रीमिंग-ट्रांसक्रिप्ट अनुवाद उत्पादों सहित — दो-मॉडल विलंबता ओवरहेड या अलग आउटपुट मोडैलिटी की लागत पर (2), (3), और (4) से बचते हैं। इसे एक श्रेणी अंतर्दृष्टि के रूप में मानें, एक मॉडल की आलोचना के रूप में नहीं।

Whisper + GPT-4o-mini DIY पाइपलाइन — मापा गया व्यवहार

समान तीन 120-सेकंड VOA क्लिप पर, एक नाइव बेसलाइन Whisper-large + GPT-4o-mini पाइपलाइन ने 2,720 ms का मीडियन फाइनल ट्रांसक्रिप्ट लेटेंसी मापा (95% CI 1,880–3,396, n=28), और प्रति 120-सेकंड क्लिप ≈22 नॉर्मलाइज़्ड इरेज़र (आंशिक चंक में टोकन संशोधन) उत्सर्जित किए। समान चार भाषा जोड़ियों में समझ निष्ठा कंपोज़िट 4.63 / 5 था।

उल्लेखनीय: DIY पाइपलाइन ने समर्पित `gpt-realtime-translate` मॉडल की तुलना में उच्चतर समझ स्कोर किया (4.63 बनाम 4.53)। समर्पित मॉडल पहले आउटपुट के लिए तेज़ है और एकीकृत करना आसान है, लेकिन इस बेंचमार्क पर पुराना दो-मॉडल पाइपलाइन सोर्स अर्थ को थोड़ा अधिक सटीक रूप से पढ़ता है। अंतर 5-पॉइंट स्केल पर ~0.10 के भीतर हैं और अलग डिज़ाइन प्राथमिकताओं को दर्शाते हैं — समर्पित मॉडल के लिए गति और परिचालन सरलता, पाइपलाइन के लिए ट्रांसक्रिप्ट-सटीकता और प्रॉम्प्ट नियंत्रण।

6. 6. OpenAI के अपने दस्तावेज़ीकरण में क्या खुलासा है

OpenAI की 7 मई, 2026 की घोषणा और डेवलपर दस्तावेज़ीकरण से सीधे लिए गए कथन:

प्रशिक्षण कॉर्पस। "हजारों घंटों के पेशेवर दुभाषिया ऑडियो पर प्रशिक्षित, जो इसे केवल अनुवाद बने रहने और स्पीच उत्पन्न करने से पहले पर्याप्त संदर्भ की प्रतीक्षा करने में मदद करता है।" (स्रोत: OpenAI घोषणा।)
भाषा कवरेज। 70+ इनपुट भाषाएं 13 आउटपुट भाषाओं में। (स्रोत: OpenAI कुकबुक।)
भारतीय-भाषा शक्ति। OpenAI के अपने मूल्यांकन में हिंदी, तमिल, और तेलुगु पर "परीक्षण किए गए किसी भी अन्य मॉडल की तुलना में 12.5% कम Word Error Rates"। (स्रोत: OpenAI घोषणा।)
कोड-स्विचिंग व्यवहार। OpenAI का दस्तावेज़ीकरण बताता है कि मॉडल आउटपुट भाषा में पहले से मौजूद स्पीच को छोड़ सकता है — एक डिज़ाइन विकल्प जो कोड-स्विच्ड ऑडियो पर साइलेंस उत्पन्न करता है।
मोड बाधाएं। अनुवाद मोड में, टेक्स्ट इनपुट समर्थित नहीं है और टूल उपयोग प्लस सिस्टम निर्देश अक्षम हैं। अनुवाद-मोड कॉल सामान्य Realtime API की तुलना में एक बाधित सतह है।
आउटपुट फॉर्मेट (डेवलपर)। ऑडियो चंक्ड स्ट्रीमिंग के साथ कच्चे PCM में भेजा और प्राप्त किया जाता है। सटीक फॉर्मेट और चंक-साइज़ गाइडेंस के लिए Realtime API गाइड देखें।
मूल्य निर्धारण। `gpt-realtime-translate` के लिए $0.034 प्रति मिनट इनपुट ऑडियो। Whisper के लिए $0.006 प्रति मिनट ऑडियो। GPT-4o-mini प्रति-टोकन। ChatGPT Plus लगभग $20/माह है और ChatGPT Voice लाइव ट्रांसलेट पहुंच के लिए न्यूनतम पेड टियर है। (OpenAI API मूल्य निर्धारण और ChatGPT उपभोक्ता मूल्य निर्धारण।)
दस्तावेज़ित लॉन्च उपयोगकर्ता। Deutsche Telekom (बहुभाषी ग्राहक सहायता) और Vimeo (उत्पाद शिक्षा वीडियो का रियल-टाइम अनुवाद)। (स्रोत: OpenAI घोषणा।)

7. 7. कब कौन सी सतह चुनें — और कब कोई अन्य टूल बेहतर फिट करता है

ChatGPT Voice लाइव ट्रांसलेट चुनें यदि

आप पहले से ही ChatGPT Plus (या Teams, Enterprise, Edu) के लिए भुगतान करते हैं और कोई अन्य सब्सक्रिप्शन नहीं जोड़ना चाहते।
आपका उपयोग मामला एक-पर-एक या छोटी व्यक्तिगत बातचीत है न कि मल्टी-पार्टी मीटिंग जिसमें प्रदर्शित ट्रांसक्रिप्ट की आवश्यकता है।
आप सोर्स/टारगेट भाषा पिकर और सेव किए गए ट्रांसक्रिप्ट के साथ समर्पित ट्रांसलेटर UI के बजाय बातचीत-मोड इंटरफेस स्वीकार करते हैं।
आप मॉडल के वॉइस एक्टिविटी और टर्न-टेकिंग को आंतरिक रूप से संभालने के साथ सहज हैं, स्पष्ट उपयोगकर्ता नियंत्रण के बिना।

gpt-realtime-translate (Realtime API) चुनें यदि

आप एक डेवलपर एप्लिकेशन बना रहे हैं जहां समझ मार्जिन की तुलना में पहले-अनुवादित-ऑडियो का समय अधिक महत्वपूर्ण है।
आपकी आउटपुट भाषा सूची 13 भाषाओं के अंदर फिट होती है।
आप भारतीय-भाषा दर्शकों (हिंदी, तमिल, तेलुगु) की सेवा करते हैं जहां OpenAI का अपना मूल्यांकन विकल्पों पर 12.5% WER कमी रिपोर्ट करता है।
आप OpenAI के API के ऊपर उपभोक्ता-सामना करने वाली परत (UI, टेलीफोनी, त्रुटि हैंडलिंग, कोड-स्विच फॉलबैक) बना सकते हैं।
आप DIY पाइपलाइन के लिए दो API कॉल के बजाय एक API कॉल के बदले में गति-बनाम-समझ ट्रेड-ऑफ (समान बेंचमार्क पर 4.63 के लिए 4.53/5 समझ) स्वीकार करते हैं।

Whisper + GPT-4o-mini DIY चुनें यदि

आपको 13-भाषा सीमा के बाहर मनमानी आउटपुट भाषाओं की आवश्यकता है।
आपको विशेष शब्दावली या स्टाइल बाधाओं के लिए पूर्ण प्रॉम्प्ट और शब्दावली नियंत्रण की आवश्यकता है।
आपके पास VAD, एंडपॉइंट डिटेक्शन, हैलुसिनेशन फिल्टरिंग, स्ट्रीमिंग UI, और टेलीफोनी के लिए इंजीनियरिंग क्षमता है।
आप कम प्रति-मिनट ऑडियो लागत ($0.006 Whisper) चाहते हैं और प्रति-टोकन GPT-4o-mini मूल्य निर्धारण स्वीकार कर सकते हैं।
आप अनुवाद को व्यापक Realtime API क्षमता सतह (टूल उपयोग, सिस्टम निर्देश) के साथ एकीकृत करना चाहते हैं जो समर्पित अनुवाद मोड एक्सपोज़ नहीं करता।

जहां एक अलग टूल बेहतर फिट हो सकता है

OpenAI की तीन सतहें अधिकांश लाइव-अनुवाद उपयोग मामलों को कवर करती हैं, लेकिन प्रत्येक एक विशिष्ट आकार के अंदर रहती है: ChatGPT Voice अनुवाद के साथ एक चैटबॉट है, `gpt-realtime-translate` एक डेवलपर API है, और Whisper + GPT-4o-mini बिल्डिंग ब्लॉक का एक सेट है। एक समर्पित ट्रांसलेटर-ऐप सतह — स्ट्रीमिंग टेक्स्ट + ऑडियो आउटपुट के साथ जिसे आप सुनते समय पढ़ सकते हैं, प्रति-स्पीकर एट्रिब्यूशन, गेटेड-कमिट प्रदर्शित ट्रांसक्रिप्ट जो कभी वापस नहीं जाते, अनुवादित आउटबाउंड फोन कॉल, और सब्सक्रिप्शन गेट के बाहर एक फ्री टियर — एक अलग उत्पाद श्रेणी है। LiveLingo (इस गाइड को प्रकाशित करने वाला) वहां बैठता है। ईमानदार ट्रेड-ऑफ: LiveLingo का ऑडियो आउटपुट होस्ट प्लेटफॉर्म के डिफ़ॉल्ट टेक्स्ट-टू-स्पीच इंजन के माध्यम से चलता है, इसलिए बोली गई आवाज़ `gpt-realtime-translate` की तुलना में कम अभिव्यंजक है; ChatGPT Voice का बातचीत इंटरफेस आकस्मिक आगे-पीछे के लिए समर्पित ट्रांसलेटर UI की तुलना में अधिक प्राकृतिक लग सकता है। साइड-बाई-साइड स्पेक्स: /hi/compare/chatgpt-translation। बेंचमार्क नंबर: /hi/research/benchmark-2026।

8. 8. अक्सर पूछे जाने वाले प्रश्न

OpenAI 2026 में कौन सा लाइव अनुवाद प्रदान करता है?

OpenAI 2026 के मध्य तक तीन सतहों पर लाइव अनुवाद शिप करता है। ChatGPT Voice में पेड सब्सक्राइबर्स (Plus, Teams, Enterprise, Edu) के लिए एक लाइव ट्रांसलेट मोड शामिल है। `gpt-realtime-translate` Realtime API में एक समर्पित स्ट्रीमिंग स्पीच-टू-स्पीच अनुवाद मॉडल है, 7 मई, 2026 को जारी किया गया, 70+ इनपुट भाषाओं और 13 आउटपुट भाषाओं के साथ $0.034 प्रति मिनट इनपुट ऑडियो पर मूल्य निर्धारित। Whisper-large (स्पीच-टू-टेक्स्ट) और GPT-4o-mini (अनुवाद) का एक DIY पाइपलाइन उन डेवलपर्स के लिए उपलब्ध रहता है जो मनमानी भाषा जोड़ियां और स्टैक का पूरा नियंत्रण चाहते हैं।

ChatGPT Voice लाइव ट्रांसलेट कैसे काम करता है?

ChatGPT ऐप मैसेज कंपोज़र में Voice आइकन पर टैप करें, फिर असिस्टेंट से अनुवाद करने को कहें — जैसे "अंग्रेजी और जापानी के बीच अनुवाद करें।" मॉडल तब तक टर्न के पार अनुवाद करता रहता है जब तक रोकने या भाषाएं स्विच करने को न कहा जाए। पेड ChatGPT सब्सक्राइबर्स (Plus ~$20/माह, Teams, Enterprise, या Edu) के लिए उपलब्ध। यह एक बातचीत वॉइस सतह है, सोर्स/टारगेट भाषा सिलेक्टर, सोर्स-और-अनुवादित ट्रांसक्रिप्ट जोड़ियों, या कॉल-डायलिंग के साथ समर्पित ट्रांसलेटर UI नहीं।

gpt-realtime-translate क्या है?

Realtime API में OpenAI का समर्पित स्ट्रीमिंग स्पीच-टू-स्पीच अनुवाद मॉडल, 7 मई, 2026 को जारी किया गया। हजारों घंटों के पेशेवर दुभाषिया ऑडियो पर प्रशिक्षित। 70+ इनपुट भाषाएं → 13 आउटपुट भाषाएं। $0.034 प्रति मिनट इनपुट ऑडियो पर मूल्य निर्धारित। अनुवादित ऑडियो प्लस सोर्स और आउटपुट दोनों के टेक्स्ट ट्रांसक्रिप्ट लौटाता है। लॉन्च पर दस्तावेज़ित एंटरप्राइज़ उपयोगकर्ताओं में Deutsche Telekom और Vimeo शामिल हैं।

क्या आप अभी भी Whisper और GPT-4o-mini के साथ लाइव ट्रांसलेटर बना सकते हैं?

हां। DIY पाइपलाइन (Whisper-large $0.006/मिनट ऑडियो, 99 सोर्स भाषाएं; GPT-4o-mini प्रति-टोकन) सबसे लचीला OpenAI रूट बना रहता है — यह मनमानी भाषा जोड़ियों का समर्थन करता है और चंकिंग, प्रॉम्प्टिंग, और आउटपुट फॉर्मेट पर पूरा नियंत्रण देता है। ट्रेड-ऑफ इंजीनियरिंग लागत है: Whisper का API निरंतर स्पीच को उच्चारण सीमाओं में विभाजित नहीं करता, इसलिए डेवलपर को VAD, एंडपॉइंट लॉजिक, हैलुसिनेशन फिल्टरिंग, स्ट्रीमिंग UI, और टेलीफोनी बनानी होगी।

gpt-realtime-translate की मापी गई विलंबता और समझ क्या है?

LiveLingo Research बेंचमार्क परिशिष्ट (10 जून, 2026) में, `gpt-realtime-translate` में परीक्षण किए गए किसी भी सिस्टम की सबसे तेज़ पहली-ऑडियो विलंबता थी — स्पीच की शुरुआत से पहले अनुवादित ऑडियो तक मीडियन 711 ms। समझ निष्ठा कंपोज़िट 4.53 / 5 था, मापे गए छह सिस्टम में सबसे कम। निरंतर स्पीच पर, अनुवादित वॉइस स्पीकर से पीछे पड़ गई — मीडियन 3.8 s, घने ऑडियो पर 20.3 s तक ड्रिफ्ट। आवर्ती त्रुटियां: अतिरिक्त सम्मिलन, अर्थ उलटाव, उचित-नाम प्रतिस्थापन। स्रोत: livelingo.io/research/benchmark-2026।

क्या ये नंबर ChatGPT Voice उपयोगकर्ता अनुभव को दर्शाते हैं?

नहीं। मापे गए नंबर कच्चे `gpt-realtime-translate` Realtime API कॉल के लिए हैं। ChatGPT Voice समान Realtime इन्फ्रास्ट्रक्चर पर बनाया गया है लेकिन उपभोक्ता ऐप अपना खुद का क्लाइंट-साइड VAD, बातचीत स्थिति, UI रेंडरिंग जोड़ता है, और सर्वर-साइड स्मूदिंग लागू कर सकता है जो अलग से नहीं मापी गई। ChatGPT Voice उपयोगकर्ता API-टियर नंबर रिपोर्ट की तुलना में अलग कथित विलंबता, लैग ड्रिफ्ट, और कोड-स्विचिंग व्यवहार देख सकता है। प्रकाशित बेंचमार्क को Realtime API एंडपॉइंट पर डेवलपर-अनुभव फ्लोर के रूप में मानें, ChatGPT-Voice उपयोगकर्ता सीलिंग के रूप में नहीं।

OpenAI कोड-स्विचिंग को कैसे संभालता है?

OpenAI के डेवलपर दस्तावेज़ीकरण के अनुसार, `gpt-realtime-translate` आउटपुट भाषा में पहले से मौजूद स्पीच को छोड़ सकता है। LiveLingo बेंचमार्क में यह zh→en VOA क्लिप पर 86-सेकंड मार्क पर साइलेंस के रूप में सामने आया जब सोर्स अंग्रेजी में स्विच हुआ। Gemini 3.5 Live Translate समान क्लिप पर समान गैप प्रदर्शित करता है। स्ट्रीमिंग टेक्स्ट-ट्रांसक्रिप्ट सिस्टम जो टारगेट-भाषा स्पीच को प्रदर्शित ट्रांसक्रिप्ट में पास करते हैं इस गैप से नहीं गुजरते।

आपको कौन सी OpenAI सतह कब चुननी चाहिए?

ChatGPT Voice लाइव ट्रांसलेट यदि आप पहले से ही ChatGPT Plus या उच्चतर के लिए भुगतान करते हैं और बातचीत इंटरफेस स्वीकार करते हैं। `gpt-realtime-translate` यदि आप एक डेवलपर एप्लिकेशन बनाते हैं जहां प्रदर्शित-टेक्स्ट स्थिरता की तुलना में पहले-ऑडियो की गति अधिक महत्वपूर्ण है, आपकी आउटपुट भाषा सूची 13 के अंदर फिट होती है, और आप उपभोक्ता सतह को ऊपर बना सकते हैं। Whisper + GPT-4o-mini DIY यदि आपको मनमानी आउटपुट भाषाओं, पूर्ण प्रॉम्प्ट और शब्दावली नियंत्रण, कम प्रति-मिनट लागत, और VAD, एंडपॉइंट डिटेक्शन, हैलुसिनेशन फिल्टरिंग, स्ट्रीमिंग UI, और टेलीफोनी बनाने की इंजीनियरिंग क्षमता की आवश्यकता है।

9. 9. स्रोत

OpenAI. API में नए मॉडल के साथ वॉइस इंटेलिजेंस को आगे बढ़ाना. OpenAI ब्लॉग, 7 मई, 2026. openai.com
OpenAI Developers. gpt-realtime-translate के साथ लाइव अनुवाद ऐप्स बनाएं. OpenAI कुकबुक. developers.openai.com
OpenAI Developers. Realtime और ऑडियो (Realtime API गाइड). developers.openai.com
OpenAI. ChatGPT Voice मोड (उपभोक्ता फीचर पेज). chatgpt.com
OpenAI. API मूल्य निर्धारण (प्रति-मॉडल दरें). openai.com/api/pricing
OpenAI. ChatGPT मूल्य निर्धारण (उपभोक्ता टियर). openai.com/chatgpt/pricing
OpenAI. स्पीच-टू-टेक्स्ट गाइड (Whisper दस्तावेज़ीकरण). platform.openai.com
Tom's Guide. ChatGPT Voice अधिक मानवीय हो गया — और अब यह रियल टाइम में अनुवाद करता है, 7 मई, 2026. tomsguide.com
9to5Mac. OpenAI के पास नए वॉइस मॉडल हैं जो तर्क करते हैं, अनुवाद करते हैं, और आपके बोलते समय ट्रांसक्राइब करते हैं, 7 मई, 2026. 9to5mac.com
Slator. OpenAI ChatGPT में AI लाइव स्पीच अनुवाद पर दोगुना दांव लगाता है. slator.com
openai/whisper. GitHub चर्चा — छोटी क्लिप पर हैलुसिनेशन. github.com
LiveLingo Research. रियल-टाइम वॉइस अनुवाद बेंचमार्क 2026 — OpenAI gpt-realtime-translate परिशिष्ट, 10 जून, 2026. livelingo.io/research/benchmark-2026
LiveLingo. LiveLingo बनाम ChatGPT: रियल-टाइम वॉइस अनुवाद की तुलना (2026). livelingo.io/compare/chatgpt-translation

मूल्य निर्धारण, उपलब्धता, लॉन्च उपयोगकर्ता, और उपभोक्ता-टियर पहुंच विवरण 10 जून, 2026 को उपरोक्त प्राथमिक स्रोतों के खिलाफ सत्यापित। OpenAI टियर, मूल्य निर्धारण, भाषा कवरेज, और मॉडल व्यवहार बदल सकता है; किसी भी विशिष्ट नंबर पर भरोसा करने से पहले वर्तमान स्थिति के लिए लिंक किए गए स्रोतों से सलाह लें।

OpenAI Live Translation (2026): ChatGPT Voice, gpt-realtime-translate, और Whisper+GPT की तुलना

1. 1. OpenAI जून 2026 में लाइव अनुवाद के लिए क्या प्रदान करता है

2. 2. ChatGPT Voice — लाइव ट्रांसलेट मोड (उपभोक्ता)

3. 3. gpt-realtime-translate — समर्पित API मॉडल

4. 4. Whisper + GPT-4o-mini — DIY पाइपलाइन

5. 5. स्वतंत्र मापन पर वे कैसा प्रदर्शन करते हैं

gpt-realtime-translate — मापा गया व्यवहार

Whisper + GPT-4o-mini DIY पाइपलाइन — मापा गया व्यवहार

6. 6. OpenAI के अपने दस्तावेज़ीकरण में क्या खुलासा है

7. 7. कब कौन सी सतह चुनें — और कब कोई अन्य टूल बेहतर फिट करता है

ChatGPT Voice लाइव ट्रांसलेट चुनें यदि

gpt-realtime-translate (Realtime API) चुनें यदि

Whisper + GPT-4o-mini DIY चुनें यदि

जहां एक अलग टूल बेहतर फिट हो सकता है

8. 8. अक्सर पूछे जाने वाले प्रश्न

OpenAI 2026 में कौन सा लाइव अनुवाद प्रदान करता है?

ChatGPT Voice लाइव ट्रांसलेट कैसे काम करता है?

gpt-realtime-translate क्या है?

क्या आप अभी भी Whisper और GPT-4o-mini के साथ लाइव ट्रांसलेटर बना सकते हैं?

gpt-realtime-translate की मापी गई विलंबता और समझ क्या है?

क्या ये नंबर ChatGPT Voice उपयोगकर्ता अनुभव को दर्शाते हैं?

OpenAI कोड-स्विचिंग को कैसे संभालता है?

आपको कौन सी OpenAI सतह कब चुननी चाहिए?

9. 9. स्रोत

भाषा की बाधा को तोड़ने के लिए तैयार हैं?

1. 1. OpenAI जून 2026 में लाइव अनुवाद के लिए क्या प्रदान करता है

2. 2. ChatGPT Voice — लाइव ट्रांसलेट मोड (उपभोक्ता)

3. 3. gpt-realtime-translate — समर्पित API मॉडल

4. 4. Whisper + GPT-4o-mini — DIY पाइपलाइन

5. 5. स्वतंत्र मापन पर वे कैसा प्रदर्शन करते हैं

gpt-realtime-translate — मापा गया व्यवहार

Whisper + GPT-4o-mini DIY पाइपलाइन — मापा गया व्यवहार

6. 6. OpenAI के अपने दस्तावेज़ीकरण में क्या खुलासा है

7. 7. कब कौन सी सतह चुनें — और कब कोई अन्य टूल बेहतर फिट करता है

ChatGPT Voice लाइव ट्रांसलेट चुनें यदि

gpt-realtime-translate (Realtime API) चुनें यदि

Whisper + GPT-4o-mini DIY चुनें यदि

जहां एक अलग टूल बेहतर फिट हो सकता है

8. 8. अक्सर पूछे जाने वाले प्रश्न

OpenAI 2026 में कौन सा लाइव अनुवाद प्रदान करता है?

ChatGPT Voice लाइव ट्रांसलेट कैसे काम करता है?

gpt-realtime-translate क्या है?

क्या आप अभी भी Whisper और GPT-4o-mini के साथ लाइव ट्रांसलेटर बना सकते हैं?

gpt-realtime-translate की मापी गई विलंबता और समझ क्या है?

क्या ये नंबर ChatGPT Voice उपयोगकर्ता अनुभव को दर्शाते हैं?

OpenAI कोड-स्विचिंग को कैसे संभालता है?

आपको कौन सी OpenAI सतह कब चुननी चाहिए?

9. 9. स्रोत

Continue Reading

Mejores Auriculares de Traducción en Amazon: Guía del Comprador 2026

Gemini 3.5 Live Translate: Guía Completa de Traducción IA en Tiempo Real

Auriculares de Traducción IA: ¿Cuáles Funcionan Realmente en 2026?

Traducción Alemán-Español: 7 Mejores Herramientas Comparadas 2026

भाषा की बाधा को तोड़ने के लिए तैयार हैं?