1. 1. OpenAI जून 2026 में लाइव अनुवाद के लिए क्या प्रदान करता है
जून 2026 तक तीन अलग-अलग सतहें उपलब्ध हैं:
ChatGPT Voice — लाइव ट्रांसलेट (उपभोक्ता)। लाइव अनुवाद ChatGPT के Voice मोड में बिल्ट-इन है। उपयोगकर्ता ChatGPT ऐप मैसेज कंपोज़र में Voice आइकन पर टैप करता है, असिस्टेंट से भाषाओं के बीच अनुवाद करने को कहता है, और मॉडल तब तक बातचीत के दौरान अनुवाद करता रहता है जब तक उसे रोकने या स्विच करने को न कहा जाए। इसके लिए पेड ChatGPT सब्सक्रिप्शन की आवश्यकता है — Plus, Teams, Enterprise, या Edu (OpenAI उपभोक्ता मूल्य निर्धारण पेज; Plus लगभग $20/माह)। हमारी जांच के अनुसार 10 जून, 2026 तक कोई फ्री-टियर लाइव-ट्रांसलेट उपभोक्ता पहुंच नहीं है। इंटरफेस बातचीत के रूप में है न कि समर्पित ट्रांसलेटर UI के रूप में; कोई सोर्स/टारगेट भाषा जोड़ी सिलेक्टर नहीं है, कोई दो-कॉलम सोर्स-और-अनुवादित ट्रांसक्रिप्ट नहीं है, और कोई कॉल-डायलिंग नहीं है।
`gpt-realtime-translate` (समर्पित API मॉडल)। 7 मई, 2026 को, OpenAI ने Realtime API के अंदर एक उद्देश्य-निर्मित स्ट्रीमिंग स्पीच-टू-स्पीच अनुवाद मॉडल जारी किया। OpenAI की घोषणा के अनुसार, मॉडल को "हजारों घंटों के पेशेवर दुभाषिया ऑडियो पर प्रशिक्षित किया गया था" और इसे "केवल अनुवाद बने रहने और स्पीच उत्पन्न करने से पहले पर्याप्त संदर्भ की प्रतीक्षा करने" के लिए कॉन्फ़िगर किया गया है। यह 70+ इनपुट भाषाओं को 13 आउटपुट भाषाओं में अनुवादित करने का समर्थन करता है और $0.034 प्रति मिनट इनपुट ऑडियो (OpenAI API मूल्य निर्धारण) पर मूल्य निर्धारित है। OpenAI की घोषणा में नामित दस्तावेज़ित लॉन्च पार्टनर: Deutsche Telekom (बहुभाषी ग्राहक सहायता) और Vimeo (उत्पाद-शिक्षा वीडियो का रियल-टाइम अनुवाद)।
Whisper + GPT-4o-mini (DIY पाइपलाइन)। मूल डेवलपर पथ उपलब्ध रहता है। Whisper-large स्पीच-टू-टेक्स्ट को संभालता है (OpenAI के स्पीच-टू-टेक्स्ट गाइड के अनुसार 99 भाषाएं; OpenAI के API मूल्य निर्धारण पेज पर $0.006/मिनट ऑडियो); GPT-4o-mini अनुवाद को संभालता है (प्रति-टोकन मूल्य निर्धारण, समान स्रोत)। संयुक्त रूप से, वे मनमानी भाषा जोड़ियों का समर्थन करते हैं — `gpt-realtime-translate` की 13-आउटपुट सीमा नहीं — और डेवलपर को चंकिंग, प्रॉम्प्टिंग, शब्दावली हैंडलिंग, और आउटपुट फॉर्मेट पर पूरा नियंत्रण देते हैं। लागत इंजीनियरिंग है: Whisper का API निरंतर स्पीच को उच्चारण सीमाओं में विभाजित नहीं करता, इसलिए डेवलपर वॉइस-एक्टिविटी डिटेक्शन (VAD), एंडपॉइंट लॉजिक, हैलुसिनेशन फिल्टरिंग, स्ट्रीमिंग UI, और टेलीफोनी प्रदान करता है।
2. 2. ChatGPT Voice — लाइव ट्रांसलेट मोड (उपभोक्ता)
लाइव अनुवाद के साथ ChatGPT Voice iOS, Android, और वेब पर उपभोक्ता ChatGPT ऐप के अंदर चलता है। उपयोगकर्ता एक Voice सेशन खोलता है और असिस्टेंट को अनुवाद निर्देश देता है जैसे "अंग्रेजी और जापानी के बीच अनुवाद करें।" मॉडल फिर प्रत्येक स्पीकर के उच्चारण को अनुरोधित लक्ष्य भाषा में निरंतर अनुवाद करता है, टर्न के पार, जब तक उपयोगकर्ता इसे रोकने, भाषाएं स्विच करने, या सेशन समाप्त करने को न कहे।
पहुंच के लिए पेड ChatGPT सब्सक्रिप्शन की आवश्यकता है। लाइव ट्रांसलेट के साथ अपग्रेडेड Voice मोड ChatGPT Plus (OpenAI के उपभोक्ता मूल्य निर्धारण पेज के अनुसार लगभग $20/माह), Teams, Enterprise, और Edu उपयोगकर्ताओं के लिए उपलब्ध है; पहुंच मैसेज कंपोज़र में Voice आइकन के माध्यम से शुरू की जाती है (chatgpt.com/features/voice पर दस्तावेज़ित और Tom's Guide और 9to5Mac के लॉन्च कवरेज द्वारा पुष्ट)। 10 जून, 2026 तक हमारी जांच में लाइव-ट्रांसलेट फीचर फ्री टियर पर सामने नहीं आया है।
इंटरफेस आपको क्या देता है, और क्या नहीं। उपयोगकर्ता अनुभव एक बातचीत का Voice सेशन है — एक-पर-एक क्रॉस-भाषा एक्सचेंज या छोटी व्यक्तिगत बातचीत के लिए प्राकृतिक। इसमें सोर्स/टारगेट भाषा पिकर, दो-कॉलम सोर्स-और-अनुवादित ट्रांसक्रिप्ट जोड़ी जिसे आप सुनते समय पढ़ सकते हैं, सेशन एक्सपोर्ट, मीटिंग-मेमो, या आउटबाउंड फोन-कॉल डायलिंग के साथ समर्पित ट्रांसलेटर UI शामिल नहीं है। मॉडल वॉइस एक्टिविटी और टर्न-टेकिंग को आंतरिक रूप से संभालता है; उपयोगकर्ता का एंडपॉइंट टाइमिंग, शब्दावली, या प्रॉम्प्ट स्टाइल पर कोई स्पष्ट नियंत्रण नहीं है।
अंतर्निहित मॉडल और व्यवहार। ChatGPT Voice का लाइव ट्रांसलेट OpenAI के Realtime मॉडल परिवार पर बनाया गया है। 7 मई, 2026 रिलीज़ के लॉन्च कवरेज (Tom's Guide, 9to5Mac, Slator) से संकेत मिलता है कि उपभोक्ता Voice सतह उसी Realtime इन्फ्रास्ट्रक्चर का उपयोग करती है जो `gpt-realtime-translate` को होस्ट करती है, जिसके ऊपर उपभोक्ता-ऐप-लेयर वॉइस एक्टिविटी डिटेक्शन, बातचीत स्थिति, और UI रेंडरिंग है। 10 जून, 2026 तक OpenAI के सार्वजनिक मॉडल दस्तावेज़ीकरण में उपभोक्ता Voice ट्रांसलेट वेरिएंट के लिए अलग मॉडल कार्ड का वर्णन नहीं है।
3. 3. gpt-realtime-translate — समर्पित API मॉडल
`gpt-realtime-translate` OpenAI का पहला उद्देश्य-निर्मित अनुवाद मॉडल है, जो 7 मई, 2026 को Realtime API के अंदर जारी किया गया। यह DIY Whisper + GPT-4o-mini रूट से अलग है क्योंकि स्ट्रीमिंग स्पीच-टू-स्पीच ट्रांसफॉर्मेशन दो स्वतंत्र रूप से प्रॉम्प्ट किए गए API कॉल के बजाय एक ही मॉडल में होता है।
विशिष्टताएं। OpenAI के डेवलपर कुकबुक के अनुसार: 70+ इनपुट भाषाएं ऑटो-डिटेक्ट, 13 आउटपुट भाषाएं। मूल्य निर्धारण $0.034 प्रति मिनट इनपुट ऑडियो। अनुवादित ऑडियो प्लस सोर्स स्पीच और अनुवादित आउटपुट दोनों के टेक्स्ट ट्रांसक्रिप्ट लौटाता है — एक ट्रांसक्रिप्ट सतह जो उपभोक्ता ChatGPT Voice मोड एक्सपोज़ नहीं करता। कोई स्पीकर एट्रिब्यूशन नहीं और कोई वॉइस सिलेक्शन नहीं। बोला गया आउटपुट उत्सर्जित होने के बाद संशोधित नहीं किया जा सकता।
प्रशिक्षण और व्यवहार। OpenAI बताता है कि मॉडल को "हजारों घंटों के पेशेवर दुभाषिया ऑडियो पर प्रशिक्षित किया गया था, जो इसे केवल अनुवाद बने रहने और स्पीच उत्पन्न करने से पहले पर्याप्त संदर्भ की प्रतीक्षा करने में मदद करता है।" OpenAI के अपने मूल्यांकन में, मॉडल ने हिंदी, तमिल, और तेलुगु पर परीक्षण किए गए किसी भी अन्य मॉडल की तुलना में 12.5% कम Word Error Rates दिए — रिलीज़ की दस्तावेज़ित भारतीय-भाषा शक्ति।
अनुवाद-मोड बाधाएं। OpenAI कुकबुक के अनुसार, अनुवाद-मोड API कॉल सामान्य Realtime API उपयोग की तुलना में एक बाधित सतह है। अनुवाद मोड में टेक्स्ट इनपुट समर्थित नहीं है, और टूल उपयोग और सिस्टम निर्देश अक्षम हैं — इनपुट ऑडियो है, आउटपुट ऑडियो प्लस ट्रांसक्रिप्ट है, और मॉडल सामान्य वॉइस असिस्टेंट के बजाय समर्पित दुभाषिया के रूप में व्यवहार करता है।
4. 4. Whisper + GPT-4o-mini — DIY पाइपलाइन
Whisper + GPT-4o-mini रूट उपलब्ध रहता है और उन डेवलपर्स के लिए सही विकल्प बना रहता है जिन्हें समर्पित अनुवाद मॉडल द्वारा प्रदान नहीं किए जाने वाले व्यवहार की आवश्यकता है: 13-भाषा सीमा के बाहर मनमानी आउटपुट भाषाएं, बारीक प्रॉम्प्ट और शब्दावली नियंत्रण, कस्टम चंकिंग रणनीतियां, या टूल उपयोग जैसी अन्य Realtime API क्षमताओं के साथ एकीकरण।
विशिष्टताएं। Whisper-large स्पीच-टू-टेक्स्ट के लिए 99 इनपुट भाषाओं का समर्थन करता है (OpenAI स्पीच-टू-टेक्स्ट गाइड) $0.006 प्रति मिनट ऑडियो (OpenAI मूल्य निर्धारण पेज) पर। GPT-4o-mini अनुवाद चरण को प्रति-टोकन मूल्य निर्धारण (OpenAI मूल्य निर्धारण पेज पर भी) के साथ संभालता है। दो सेवाएं स्वतंत्र नेटवर्क कॉल हैं; कुल प्रति-मिनट लागत ट्रांसक्रिप्ट लंबाई पर निर्भर करती है लेकिन आमतौर पर अंग्रेजी-लक्ष्य उपयोग के लिए `gpt-realtime-translate` से कम होती है, और अधिक इंजीनियरिंग प्रयास।
डेवलपर क्या प्रदान करता है। Whisper + GPT-4o-mini के ऊपर प्रोडक्शन रियल-टाइम वॉइस अनुवाद के लिए निम्नलिखित घटकों की आवश्यकता होती है, जिनमें से कोई भी OpenAI शिप नहीं करता:
- वॉइस एक्टिविटी डिटेक्शन (VAD)। Whisper का API पूर्ण ऑडियो चंक पर ट्रांसक्रिप्शन सरफेस करता है लेकिन निरंतर स्पीच को उच्चारण सीमाओं में विभाजित नहीं करता; डेवलपर प्रत्येक चंक कब भेजना है यह तय करने के लिए अलग VAD प्रदान करता है। इसके बिना, उच्चारण कब समाप्त होता है इसका कोई संकेत नहीं है।
- एंडपॉइंट लॉजिक। अधिक ऑडियो की प्रतीक्षा करना है (कम विलंबता, अधिक संशोधन) या जल्दी कमिट करना है (अधिक विलंबता, कम संशोधन)। ट्रेड-ऑफ उपयोगकर्ता अनुभव को परिभाषित करता है।
- हैलुसिनेशन फिल्टरिंग। Whisper को छोटी क्लिप पर अंग्रेजी फिलर टेक्स्ट हैलुसिनेट करने की व्यापक रिपोर्ट है — सामान्य आर्टिफैक्ट्स में "Thanks for watching!" और "Subscribe!" शामिल हैं, जो इसके प्रशिक्षण कॉर्पस में YouTube सामग्री के लिए जिम्मेदार हैं; छोटी क्लिप पर हैलुसिनेशन के openai/whisper GitHub चर्चा देखें। प्रोडक्शन डिप्लॉयमेंट के लिए इन्हें फिल्टर करना आवश्यक है।
- स्ट्रीमिंग UI प्रिमिटिव्स। एक गेटेड-कमिट ओवरले ताकि प्रदर्शित टेक्स्ट वापस न जाए, आंशिक चंक का संचय, स्क्रॉल व्यवहार, और सोर्स-बनाम-अनुवादित डिस्प्ले।
- फोन-कॉल उपयोग के लिए टेलीफोनी एकीकरण (Twilio, Telnyx, या समान), द्विदिशीय ऑडियो ब्रिजिंग और प्रति-न्यायाधिकार कॉल-रिकॉर्डिंग प्रकटीकरण अनुपालन सहित।
- लागत निगरानी + दर-सीमा हैंडलिंग। निरंतर उपयोग पर, प्रति-मिनट लागत फ्लैट सब्सक्रिप्शन से अधिक हो सकती है, और प्रति-खाता दर सीमाओं के लिए बैकऑफ रणनीतियों की आवश्यकता होती है।
5. 5. स्वतंत्र मापन पर वे कैसा प्रदर्शन करते हैं
हमने क्या मापा (और क्या नहीं)। नीचे के नंबर कच्चे `gpt-realtime-translate` Realtime API एंडपॉइंट के लिए हैं, Python SDK के माध्यम से प्रोग्रामेटिक रूप से एक्सेस किए गए, LiveLingo बेंचमार्क में हर API-टियर सिस्टम पर समान रूप से लागू समान एनर्जी-VAD उच्चारण सीमाओं के साथ। हमने ChatGPT Voice उपभोक्ता ऐप को अलग से नहीं मापा। ChatGPT Voice समान Realtime इन्फ्रास्ट्रक्चर पर बनाया गया है लेकिन उपभोक्ता सतह अपना खुद का क्लाइंट-साइड VAD, बातचीत स्थिति, UI रेंडरिंग जोड़ती है, और सर्वर-साइड स्मूदिंग लागू कर सकती है जिसकी हमारी कोई प्रोग्रामेटिक पहुंच नहीं है। ChatGPT Voice उपयोगकर्ता API-टियर नंबर रिपोर्ट की तुलना में अलग कथित विलंबता, लैग ड्रिफ्ट, और कोड-स्विचिंग व्यवहार देख सकता है। जहां यह सेक्शन विशिष्ट व्यवहार (ड्रिफ्ट, कोड-स्विच साइलेंस) का हवाला देता है, उन्हें Realtime API एंडपॉइंट पर डेवलपर-अनुभव फ्लोर के रूप में मानें, ChatGPT-Voice उपभोक्ता सीलिंग के रूप में नहीं। Whisper + GPT-4o-mini DIY पाइपलाइन नंबर समान रूप से API-टियर हैं — वे दर्शाते हैं कि एक डेवलपर एक नाइव बेसलाइन पाइपलाइन असेंबल करने के बाद क्या अनुभव करता है, हैंड-ट्यूंड प्रोडक्शन सिस्टम नहीं।
पुनरुत्पादनीयता। इस सेक्शन में हर नंबर समान तीन 120-सेकंड VOA पब्लिक-डोमेन ऑडियो क्लिप, समान Realtime API एंडपॉइंट, और मूल चार-सिस्टम बेंचमार्क के लिए उपयोग किए गए समान Python हार्नेस से पुनरुत्पादित होता है। ऑडियो (`audio.zip`), कच्चा प्रति-उच्चारण JSON (`openai-realtime-results.json`), और पद्धति livelingo.io/research/benchmark-2026 पर प्रकाशित हैं।
gpt-realtime-translate — मापा गया व्यवहार
परीक्षण किए गए किसी भी सिस्टम का सबसे तेज़ पहला-ऑडियो। सभी 120 मूल्यांकित सेशन में स्पीच की शुरुआत से पहले अनुवादित ऑडियो तक मीडियन 711 ms (p10–p90: 485–1,012 ms)। संदर्भ के लिए, Gemini 3.5 Live Translate ने समान मेट्रिक पर ~2.9 s मापा — `gpt-realtime-translate` पहले आउटपुट के लिए लगभग चार गुना तेज़ है। गति इस मॉडल की वास्तविक शक्ति है।
समझ निष्ठा कंपोज़िट: 4.53 / 5। दो स्वतंत्र फ्रंटियर LLM जजों (GPT-4o, Gemini 2.5 Flash) द्वारा स्कोर किया गया, मूल चार-सिस्टम बेंचमार्क के समान रूब्रिक और जज प्रॉम्प्ट का उपयोग करते हुए, 120 उच्चारण और चार भाषा जोड़ियों (en→es, en→zh-CN, en→ja, en→de) में। यह मापे गए छह सिस्टम का सबसे कम स्कोर था। सेल स्तर पर LiveLingo के खिलाफ हेड-टू-हेड: 4 जीत, 80 टाई, 36 हार। आवर्ती त्रुटि वर्ग: उच्चारण शुरुआत में अतिरिक्त वाक्यांश जोड़े गए, अर्थ उलटाव (जैसे "I was stressed about work" को तनावग्रस्त होने की इच्छा के रूप में प्रस्तुत करना), और उचित नामों को सामान्य संज्ञाओं से बदलना।
LiveLingo 2026 बेंचमार्क पर छह-सिस्टम तुलना (120 उच्चारण, चार भाषा जोड़ियां, 2-जज कंपोज़िट)। कच्चा डेटा: livelingo.io/research/benchmark-2026।
| सिस्टम | समझ (0–5) | पहला-ऑडियो / TTF विलंबता | आउटपुट सतह |
|---|---|---|---|
| LiveLingo | 4.96 | 1,518 ms (कमिटेड ट्रांसक्रिप्ट) | स्ट्रीमिंग टेक्स्ट + ऑडियो |
| Gemini 3.5 Live Translate | 4.93 | ~3,100 ms (TTF) | ऑडियो (टेक्स्ट साइडकार) |
| Google Cloud STT v2 + Translate v3 | 4.77 | ~26,736 ms (फाइनल ट्रांसक्रिप्ट) | ट्रांसक्रिप्ट |
| Azure Speech Translation | 4.65 | ~4,755 ms (फाइनल ट्रांसक्रिप्ट) | ट्रांसक्रिप्ट |
| Whisper + GPT-4o-mini (DIY) | 4.63 | 2,720 ms (फाइनल ट्रांसक्रिप्ट) | ट्रांसक्रिप्ट |
| **OpenAI gpt-realtime-translate** | **4.53** | **~3,800 ms (TTF)** | **ऑडियो + ट्रांसक्रिप्ट** |
निरंतर स्पीच पर लैग ड्रिफ्ट। पहले-आउटपुट की गति उत्कृष्ट है, लेकिन विस्तारित ऑडियो पर अनुवादित वॉइस प्रगतिशील रूप से स्पीकर से पीछे पड़ जाती है क्योंकि अनअनुवादित बैकलॉग जमा होता है। प्रत्येक सोर्स-उच्चारण अंत से उस उच्चारण के लिए अनुवादित स्पीच के आगमन तक मापना: मीडियन 3.8 s, घने pt→en VOA क्लिप पर 20.3 s तक पीछे ड्रिफ्ट करना। यह ट्रेड-ऑफ है जो ऑडियो-टू-ऑडियो आर्किटेक्चर बनाता है — स्पीच आउटपुट प्राकृतिक रूप से सिंथेसाइज़्ड वॉइस की बोलने की दर से बाधित होता है, इसलिए मॉडल मानव गति से तेज़ "कैच अप" नहीं कर सकता।
कोड-स्विच्ड स्पीच विफलता। OpenAI के डेवलपर दस्तावेज़ीकरण के अनुसार, मॉडल उस स्पीच को छोड़ सकता है जो पहले से ही आउटपुट भाषा में है। LiveLingo बेंचमार्क में zh→en VOA क्लिप पर, यह 86-सेकंड मार्क पर साइलेंस के रूप में सामने आया, जब सोर्स अंग्रेजी स्पीच में स्विच हुआ — मॉडल चुप हो गया और अंग्रेजी सामग्री को अनुवादित आउटपुट में पास नहीं किया। Gemini 3.5 Live Translate समान क्लिप पर समान गैप प्रदर्शित करता है; यह ऑडियो-टू-ऑडियो समर्पित अनुवाद मॉडल के लिए एक वर्ग मुद्दा है (नीचे कॉलआउट देखें)। पाइपलाइन जो स्ट्रीमिंग टेक्स्ट ट्रांसक्रिप्ट सरफेस करती हैं कोड-स्विच्ड सामग्री को इसे छोड़ने के बजाय प्रदर्शित ट्रांसक्रिप्ट में पास कर सकती हैं।
आउटपुट सतहें। अनुवादित ऑडियो प्लस सोर्स और आउटपुट दोनों के टेक्स्ट ट्रांसक्रिप्ट — Gemini 3.5 Live Translate के ऑडियो-ओनली API की तुलना में ट्रांसक्रिप्ट-फर्स्ट प्रोडक्ट सतह के करीब। कोई स्पीकर एट्रिब्यूशन नहीं। कोई वॉइस सिलेक्शन नहीं। बोला गया आउटपुट उत्सर्जित होने के बाद संशोधित नहीं किया जा सकता।
ऑडियो-टू-ऑडियो साझा सीमाओं के साथ एक वर्ग है। इस सेक्शन में व्यवहार `gpt-realtime-translate` के लिए अनूठे नहीं हैं। Google का Gemini 3.5 Live Translate, और कोई भी अन्य वर्तमान स्पीच-टू-स्पीच ऑडियो-टू-ऑडियो अनुवाद मॉडल, ट्रेड-ऑफ के समान वर्ग को विरासत में लेता है: (1) निरंतर स्पीच पर आउटपुट-पेस लैग ड्रिफ्ट, क्योंकि अनुवादित ऑडियो बोलने की दर से बाधित होता है और मानव गति से तेज़ कैच अप नहीं कर सकता; (2) कोड-स्विच साइलेंस, क्योंकि मॉडल को आउटपुट भाषा में पहले से मौजूद स्पीच को छोड़ने के लिए कॉन्फ़िगर किया गया है; (3) सिंथेसाइज़्ड ऑडियो में कोई इन-लाइन स्पीकर एट्रिब्यूशन नहीं; (4) अपरिवर्तनीय मिड-उच्चारण कमिट, क्योंकि बोला गया ऑडियो उस तरह वापस नहीं लिया जा सकता जैसे प्रदर्शित टेक्स्ट को किया जा सकता है। सिस्टम जो स्ट्रीमिंग टेक्स्ट ट्रांसक्रिप्ट सरफेस करते हैं — OpenAI के DIY Whisper + GPT-4o-mini रूट और LiveLingo जैसे स्ट्रीमिंग-ट्रांसक्रिप्ट अनुवाद उत्पादों सहित — दो-मॉडल विलंबता ओवरहेड या अलग आउटपुट मोडैलिटी की लागत पर (2), (3), और (4) से बचते हैं। इसे एक श्रेणी अंतर्दृष्टि के रूप में मानें, एक मॉडल की आलोचना के रूप में नहीं।
Whisper + GPT-4o-mini DIY पाइपलाइन — मापा गया व्यवहार
समान तीन 120-सेकंड VOA क्लिप पर, एक नाइव बेसलाइन Whisper-large + GPT-4o-mini पाइपलाइन ने 2,720 ms का मीडियन फाइनल ट्रांसक्रिप्ट लेटेंसी मापा (95% CI 1,880–3,396, n=28), और प्रति 120-सेकंड क्लिप ≈22 नॉर्मलाइज़्ड इरेज़र (आंशिक चंक में टोकन संशोधन) उत्सर्जित किए। समान चार भाषा जोड़ियों में समझ निष्ठा कंपोज़िट 4.63 / 5 था।
उल्लेखनीय: DIY पाइपलाइन ने समर्पित `gpt-realtime-translate` मॉडल की तुलना में उच्चतर समझ स्कोर किया (4.63 बनाम 4.53)। समर्पित मॉडल पहले आउटपुट के लिए तेज़ है और एकीकृत करना आसान है, लेकिन इस बेंचमार्क पर पुराना दो-मॉडल पाइपलाइन सोर्स अर्थ को थोड़ा अधिक सटीक रूप से पढ़ता है। अंतर 5-पॉइंट स्केल पर ~0.10 के भीतर हैं और अलग डिज़ाइन प्राथमिकताओं को दर्शाते हैं — समर्पित मॉडल के लिए गति और परिचालन सरलता, पाइपलाइन के लिए ट्रांसक्रिप्ट-सटीकता और प्रॉम्प्ट नियंत्रण।
6. 6. OpenAI के अपने दस्तावेज़ीकरण में क्या खुलासा है
OpenAI की 7 मई, 2026 की घोषणा और डेवलपर दस्तावेज़ीकरण से सीधे लिए गए कथन:
- प्रशिक्षण कॉर्पस। "हजारों घंटों के पेशेवर दुभाषिया ऑडियो पर प्रशिक्षित, जो इसे केवल अनुवाद बने रहने और स्पीच उत्पन्न करने से पहले पर्याप्त संदर्भ की प्रतीक्षा करने में मदद करता है।" (स्रोत: OpenAI घोषणा।)
- भाषा कवरेज। 70+ इनपुट भाषाएं 13 आउटपुट भाषाओं में। (स्रोत: OpenAI कुकबुक।)
- भारतीय-भाषा शक्ति। OpenAI के अपने मूल्यांकन में हिंदी, तमिल, और तेलुगु पर "परीक्षण किए गए किसी भी अन्य मॉडल की तुलना में 12.5% कम Word Error Rates"। (स्रोत: OpenAI घोषणा।)
- कोड-स्विचिंग व्यवहार। OpenAI का दस्तावेज़ीकरण बताता है कि मॉडल आउटपुट भाषा में पहले से मौजूद स्पीच को छोड़ सकता है — एक डिज़ाइन विकल्प जो कोड-स्विच्ड ऑडियो पर साइलेंस उत्पन्न करता है।
- मोड बाधाएं। अनुवाद मोड में, टेक्स्ट इनपुट समर्थित नहीं है और टूल उपयोग प्लस सिस्टम निर्देश अक्षम हैं। अनुवाद-मोड कॉल सामान्य Realtime API की तुलना में एक बाधित सतह है।
- आउटपुट फॉर्मेट (डेवलपर)। ऑडियो चंक्ड स्ट्रीमिंग के साथ कच्चे PCM में भेजा और प्राप्त किया जाता है। सटीक फॉर्मेट और चंक-साइज़ गाइडेंस के लिए Realtime API गाइड देखें।
- मूल्य निर्धारण। `gpt-realtime-translate` के लिए $0.034 प्रति मिनट इनपुट ऑडियो। Whisper के लिए $0.006 प्रति मिनट ऑडियो। GPT-4o-mini प्रति-टोकन। ChatGPT Plus लगभग $20/माह है और ChatGPT Voice लाइव ट्रांसलेट पहुंच के लिए न्यूनतम पेड टियर है। (OpenAI API मूल्य निर्धारण और ChatGPT उपभोक्ता मूल्य निर्धारण।)
- दस्तावेज़ित लॉन्च उपयोगकर्ता। Deutsche Telekom (बहुभाषी ग्राहक सहायता) और Vimeo (उत्पाद शिक्षा वीडियो का रियल-टाइम अनुवाद)। (स्रोत: OpenAI घोषणा।)
7. 7. कब कौन सी सतह चुनें — और कब कोई अन्य टूल बेहतर फिट करता है
ChatGPT Voice लाइव ट्रांसलेट चुनें यदि
- आप पहले से ही ChatGPT Plus (या Teams, Enterprise, Edu) के लिए भुगतान करते हैं और कोई अन्य सब्सक्रिप्शन नहीं जोड़ना चाहते।
- आपका उपयोग मामला एक-पर-एक या छोटी व्यक्तिगत बातचीत है न कि मल्टी-पार्टी मीटिंग जिसमें प्रदर्शित ट्रांसक्रिप्ट की आवश्यकता है।
- आप सोर्स/टारगेट भाषा पिकर और सेव किए गए ट्रांसक्रिप्ट के साथ समर्पित ट्रांसलेटर UI के बजाय बातचीत-मोड इंटरफेस स्वीकार करते हैं।
- आप मॉडल के वॉइस एक्टिविटी और टर्न-टेकिंग को आंतरिक रूप से संभालने के साथ सहज हैं, स्पष्ट उपयोगकर्ता नियंत्रण के बिना।
gpt-realtime-translate (Realtime API) चुनें यदि
- आप एक डेवलपर एप्लिकेशन बना रहे हैं जहां समझ मार्जिन की तुलना में पहले-अनुवादित-ऑडियो का समय अधिक महत्वपूर्ण है।
- आपकी आउटपुट भाषा सूची 13 भाषाओं के अंदर फिट होती है।
- आप भारतीय-भाषा दर्शकों (हिंदी, तमिल, तेलुगु) की सेवा करते हैं जहां OpenAI का अपना मूल्यांकन विकल्पों पर 12.5% WER कमी रिपोर्ट करता है।
- आप OpenAI के API के ऊपर उपभोक्ता-सामना करने वाली परत (UI, टेलीफोनी, त्रुटि हैंडलिंग, कोड-स्विच फॉलबैक) बना सकते हैं।
- आप DIY पाइपलाइन के लिए दो API कॉल के बजाय एक API कॉल के बदले में गति-बनाम-समझ ट्रेड-ऑफ (समान बेंचमार्क पर 4.63 के लिए 4.53/5 समझ) स्वीकार करते हैं।
Whisper + GPT-4o-mini DIY चुनें यदि
- आपको 13-भाषा सीमा के बाहर मनमानी आउटपुट भाषाओं की आवश्यकता है।
- आपको विशेष शब्दावली या स्टाइल बाधाओं के लिए पूर्ण प्रॉम्प्ट और शब्दावली नियंत्रण की आवश्यकता है।
- आपके पास VAD, एंडपॉइंट डिटेक्शन, हैलुसिनेशन फिल्टरिंग, स्ट्रीमिंग UI, और टेलीफोनी के लिए इंजीनियरिंग क्षमता है।
- आप कम प्रति-मिनट ऑडियो लागत ($0.006 Whisper) चाहते हैं और प्रति-टोकन GPT-4o-mini मूल्य निर्धारण स्वीकार कर सकते हैं।
- आप अनुवाद को व्यापक Realtime API क्षमता सतह (टूल उपयोग, सिस्टम निर्देश) के साथ एकीकृत करना चाहते हैं जो समर्पित अनुवाद मोड एक्सपोज़ नहीं करता।
जहां एक अलग टूल बेहतर फिट हो सकता है
OpenAI की तीन सतहें अधिकांश लाइव-अनुवाद उपयोग मामलों को कवर करती हैं, लेकिन प्रत्येक एक विशिष्ट आकार के अंदर रहती है: ChatGPT Voice अनुवाद के साथ एक चैटबॉट है, `gpt-realtime-translate` एक डेवलपर API है, और Whisper + GPT-4o-mini बिल्डिंग ब्लॉक का एक सेट है। एक समर्पित ट्रांसलेटर-ऐप सतह — स्ट्रीमिंग टेक्स्ट + ऑडियो आउटपुट के साथ जिसे आप सुनते समय पढ़ सकते हैं, प्रति-स्पीकर एट्रिब्यूशन, गेटेड-कमिट प्रदर्शित ट्रांसक्रिप्ट जो कभी वापस नहीं जाते, अनुवादित आउटबाउंड फोन कॉल, और सब्सक्रिप्शन गेट के बाहर एक फ्री टियर — एक अलग उत्पाद श्रेणी है। LiveLingo (इस गाइड को प्रकाशित करने वाला) वहां बैठता है। ईमानदार ट्रेड-ऑफ: LiveLingo का ऑडियो आउटपुट होस्ट प्लेटफॉर्म के डिफ़ॉल्ट टेक्स्ट-टू-स्पीच इंजन के माध्यम से चलता है, इसलिए बोली गई आवाज़ `gpt-realtime-translate` की तुलना में कम अभिव्यंजक है; ChatGPT Voice का बातचीत इंटरफेस आकस्मिक आगे-पीछे के लिए समर्पित ट्रांसलेटर UI की तुलना में अधिक प्राकृतिक लग सकता है। साइड-बाई-साइड स्पेक्स: /hi/compare/chatgpt-translation। बेंचमार्क नंबर: /hi/research/benchmark-2026।
8. 8. अक्सर पूछे जाने वाले प्रश्न
OpenAI 2026 में कौन सा लाइव अनुवाद प्रदान करता है?
OpenAI 2026 के मध्य तक तीन सतहों पर लाइव अनुवाद शिप करता है। ChatGPT Voice में पेड सब्सक्राइबर्स (Plus, Teams, Enterprise, Edu) के लिए एक लाइव ट्रांसलेट मोड शामिल है। `gpt-realtime-translate` Realtime API में एक समर्पित स्ट्रीमिंग स्पीच-टू-स्पीच अनुवाद मॉडल है, 7 मई, 2026 को जारी किया गया, 70+ इनपुट भाषाओं और 13 आउटपुट भाषाओं के साथ $0.034 प्रति मिनट इनपुट ऑडियो पर मूल्य निर्धारित। Whisper-large (स्पीच-टू-टेक्स्ट) और GPT-4o-mini (अनुवाद) का एक DIY पाइपलाइन उन डेवलपर्स के लिए उपलब्ध रहता है जो मनमानी भाषा जोड़ियां और स्टैक का पूरा नियंत्रण चाहते हैं।
ChatGPT Voice लाइव ट्रांसलेट कैसे काम करता है?
ChatGPT ऐप मैसेज कंपोज़र में Voice आइकन पर टैप करें, फिर असिस्टेंट से अनुवाद करने को कहें — जैसे "अंग्रेजी और जापानी के बीच अनुवाद करें।" मॉडल तब तक टर्न के पार अनुवाद करता रहता है जब तक रोकने या भाषाएं स्विच करने को न कहा जाए। पेड ChatGPT सब्सक्राइबर्स (Plus ~$20/माह, Teams, Enterprise, या Edu) के लिए उपलब्ध। यह एक बातचीत वॉइस सतह है, सोर्स/टारगेट भाषा सिलेक्टर, सोर्स-और-अनुवादित ट्रांसक्रिप्ट जोड़ियों, या कॉल-डायलिंग के साथ समर्पित ट्रांसलेटर UI नहीं।
gpt-realtime-translate क्या है?
Realtime API में OpenAI का समर्पित स्ट्रीमिंग स्पीच-टू-स्पीच अनुवाद मॉडल, 7 मई, 2026 को जारी किया गया। हजारों घंटों के पेशेवर दुभाषिया ऑडियो पर प्रशिक्षित। 70+ इनपुट भाषाएं → 13 आउटपुट भाषाएं। $0.034 प्रति मिनट इनपुट ऑडियो पर मूल्य निर्धारित। अनुवादित ऑडियो प्लस सोर्स और आउटपुट दोनों के टेक्स्ट ट्रांसक्रिप्ट लौटाता है। लॉन्च पर दस्तावेज़ित एंटरप्राइज़ उपयोगकर्ताओं में Deutsche Telekom और Vimeo शामिल हैं।
क्या आप अभी भी Whisper और GPT-4o-mini के साथ लाइव ट्रांसलेटर बना सकते हैं?
हां। DIY पाइपलाइन (Whisper-large $0.006/मिनट ऑडियो, 99 सोर्स भाषाएं; GPT-4o-mini प्रति-टोकन) सबसे लचीला OpenAI रूट बना रहता है — यह मनमानी भाषा जोड़ियों का समर्थन करता है और चंकिंग, प्रॉम्प्टिंग, और आउटपुट फॉर्मेट पर पूरा नियंत्रण देता है। ट्रेड-ऑफ इंजीनियरिंग लागत है: Whisper का API निरंतर स्पीच को उच्चारण सीमाओं में विभाजित नहीं करता, इसलिए डेवलपर को VAD, एंडपॉइंट लॉजिक, हैलुसिनेशन फिल्टरिंग, स्ट्रीमिंग UI, और टेलीफोनी बनानी होगी।
gpt-realtime-translate की मापी गई विलंबता और समझ क्या है?
LiveLingo Research बेंचमार्क परिशिष्ट (10 जून, 2026) में, `gpt-realtime-translate` में परीक्षण किए गए किसी भी सिस्टम की सबसे तेज़ पहली-ऑडियो विलंबता थी — स्पीच की शुरुआत से पहले अनुवादित ऑडियो तक मीडियन 711 ms। समझ निष्ठा कंपोज़िट 4.53 / 5 था, मापे गए छह सिस्टम में सबसे कम। निरंतर स्पीच पर, अनुवादित वॉइस स्पीकर से पीछे पड़ गई — मीडियन 3.8 s, घने ऑडियो पर 20.3 s तक ड्रिफ्ट। आवर्ती त्रुटियां: अतिरिक्त सम्मिलन, अर्थ उलटाव, उचित-नाम प्रतिस्थापन। स्रोत: livelingo.io/research/benchmark-2026।
क्या ये नंबर ChatGPT Voice उपयोगकर्ता अनुभव को दर्शाते हैं?
नहीं। मापे गए नंबर कच्चे `gpt-realtime-translate` Realtime API कॉल के लिए हैं। ChatGPT Voice समान Realtime इन्फ्रास्ट्रक्चर पर बनाया गया है लेकिन उपभोक्ता ऐप अपना खुद का क्लाइंट-साइड VAD, बातचीत स्थिति, UI रेंडरिंग जोड़ता है, और सर्वर-साइड स्मूदिंग लागू कर सकता है जो अलग से नहीं मापी गई। ChatGPT Voice उपयोगकर्ता API-टियर नंबर रिपोर्ट की तुलना में अलग कथित विलंबता, लैग ड्रिफ्ट, और कोड-स्विचिंग व्यवहार देख सकता है। प्रकाशित बेंचमार्क को Realtime API एंडपॉइंट पर डेवलपर-अनुभव फ्लोर के रूप में मानें, ChatGPT-Voice उपयोगकर्ता सीलिंग के रूप में नहीं।
OpenAI कोड-स्विचिंग को कैसे संभालता है?
OpenAI के डेवलपर दस्तावेज़ीकरण के अनुसार, `gpt-realtime-translate` आउटपुट भाषा में पहले से मौजूद स्पीच को छोड़ सकता है। LiveLingo बेंचमार्क में यह zh→en VOA क्लिप पर 86-सेकंड मार्क पर साइलेंस के रूप में सामने आया जब सोर्स अंग्रेजी में स्विच हुआ। Gemini 3.5 Live Translate समान क्लिप पर समान गैप प्रदर्शित करता है। स्ट्रीमिंग टेक्स्ट-ट्रांसक्रिप्ट सिस्टम जो टारगेट-भाषा स्पीच को प्रदर्शित ट्रांसक्रिप्ट में पास करते हैं इस गैप से नहीं गुजरते।
आपको कौन सी OpenAI सतह कब चुननी चाहिए?
ChatGPT Voice लाइव ट्रांसलेट यदि आप पहले से ही ChatGPT Plus या उच्चतर के लिए भुगतान करते हैं और बातचीत इंटरफेस स्वीकार करते हैं। `gpt-realtime-translate` यदि आप एक डेवलपर एप्लिकेशन बनाते हैं जहां प्रदर्शित-टेक्स्ट स्थिरता की तुलना में पहले-ऑडियो की गति अधिक महत्वपूर्ण है, आपकी आउटपुट भाषा सूची 13 के अंदर फिट होती है, और आप उपभोक्ता सतह को ऊपर बना सकते हैं। Whisper + GPT-4o-mini DIY यदि आपको मनमानी आउटपुट भाषाओं, पूर्ण प्रॉम्प्ट और शब्दावली नियंत्रण, कम प्रति-मिनट लागत, और VAD, एंडपॉइंट डिटेक्शन, हैलुसिनेशन फिल्टरिंग, स्ट्रीमिंग UI, और टेलीफोनी बनाने की इंजीनियरिंग क्षमता की आवश्यकता है।
9. 9. स्रोत
- OpenAI. API में नए मॉडल के साथ वॉइस इंटेलिजेंस को आगे बढ़ाना. OpenAI ब्लॉग, 7 मई, 2026. openai.com
- OpenAI Developers. gpt-realtime-translate के साथ लाइव अनुवाद ऐप्स बनाएं. OpenAI कुकबुक. developers.openai.com
- OpenAI Developers. Realtime और ऑडियो (Realtime API गाइड). developers.openai.com
- OpenAI. ChatGPT Voice मोड (उपभोक्ता फीचर पेज). chatgpt.com
- OpenAI. API मूल्य निर्धारण (प्रति-मॉडल दरें). openai.com/api/pricing
- OpenAI. ChatGPT मूल्य निर्धारण (उपभोक्ता टियर). openai.com/chatgpt/pricing
- OpenAI. स्पीच-टू-टेक्स्ट गाइड (Whisper दस्तावेज़ीकरण). platform.openai.com
- Tom's Guide. ChatGPT Voice अधिक मानवीय हो गया — और अब यह रियल टाइम में अनुवाद करता है, 7 मई, 2026. tomsguide.com
- 9to5Mac. OpenAI के पास नए वॉइस मॉडल हैं जो तर्क करते हैं, अनुवाद करते हैं, और आपके बोलते समय ट्रांसक्राइब करते हैं, 7 मई, 2026. 9to5mac.com
- Slator. OpenAI ChatGPT में AI लाइव स्पीच अनुवाद पर दोगुना दांव लगाता है. slator.com
- openai/whisper. GitHub चर्चा — छोटी क्लिप पर हैलुसिनेशन. github.com
- LiveLingo Research. रियल-टाइम वॉइस अनुवाद बेंचमार्क 2026 — OpenAI gpt-realtime-translate परिशिष्ट, 10 जून, 2026. livelingo.io/research/benchmark-2026
- LiveLingo. LiveLingo बनाम ChatGPT: रियल-टाइम वॉइस अनुवाद की तुलना (2026). livelingo.io/compare/chatgpt-translation
मूल्य निर्धारण, उपलब्धता, लॉन्च उपयोगकर्ता, और उपभोक्ता-टियर पहुंच विवरण 10 जून, 2026 को उपरोक्त प्राथमिक स्रोतों के खिलाफ सत्यापित। OpenAI टियर, मूल्य निर्धारण, भाषा कवरेज, और मॉडल व्यवहार बदल सकता है; किसी भी विशिष्ट नंबर पर भरोसा करने से पहले वर्तमान स्थिति के लिए लिंक किए गए स्रोतों से सलाह लें।