मैंने ब्राउज़र में लाइव कैप्शन बनाए

आपको Whisper की ज़रूरत नहीं है। आपको किसी API key की ज़रूरत नहीं है। आपको किसी सर्वर की ज़रूरत नहीं है।

Chrome और Edge में एक इन-बिल्ट speech-to-text इंजन शामिल होता है। मैंने इसके साथ केवल 30 लाइनों के कोड का उपयोग करके लाइव कैप्शन बनाए हैं।

इसे यहाँ आज़माएँ: https://dev48v.infy.uk/solve/day8-live-captions.html

यह कोड SpeechRecognition API का उपयोग करता है।

दो सेटिंग्स एक साधारण डिक्टेशन बॉक्स और असली लाइव कैप्शन के बीच का अंतर तय करती हैं:

इनके बिना, इंजन केवल आपके रुकने के बाद ही टेक्स्ट दिखाता है। इनके साथ, आप वास्तविक समय (real time) में अनुमानित शब्द देख सकते हैं। इससे वह फ्लिकरिंग (flickering) कैप्शन वाला प्रभाव पैदा होता है।

यदि इंजन बहुत देर तक सन्नाटा सुनता है, तो वह रुक जाता है। आप onend इवेंट में इसे रीस्टार्ट करके इस समस्या को हल कर सकते हैं। यह लूप रुकने और शांत पलों के दौरान भी कैप्शन को चालू रखता है।

इस प्रक्रिया के लिए Chrome ऑडियो को Google सर्वर पर स्ट्रीम करता है। इसका मतलब है कि आपको इंटरनेट कनेक्शन की आवश्यकता है।

आप इसका उपयोग केवल माइक्रोफ़ोन के लिए ही नहीं कर सकते। आप वीडियो कॉल या YouTube टैब से भी ऑडियो कैप्चर कर सकते हैं। ऑडियो प्राप्त करने और उसे ट्रांसक्राइबर को भेजने के लिए getDisplayMedia का उपयोग करें।

ब्राउज़र में कई अप्रयुक्त (unused) फीचर्स होते हैं। लाइव कैप्शन और वॉयस कमांड केवल एक लाइन के कोड के माध्यम से उपलब्ध हैं। आपको किसी बैकएंड की आवश्यकता नहीं है।

स्रोत: https://dev.to/dev48v/i-built-live-captions-in-the-browser-no-api-key-no-server-4i7n