मैंने ब्राउज़र में लाइव कैप्शन बनाए
आपको Whisper की ज़रूरत नहीं है। आपको किसी API key की ज़रूरत नहीं है। आपको किसी सर्वर की ज़रूरत नहीं है।
Chrome और Edge में एक इन-बिल्ट speech-to-text इंजन शामिल होता है। मैंने इसके साथ केवल 30 लाइनों के कोड का उपयोग करके लाइव कैप्शन बनाए हैं।
इसे यहाँ आज़माएँ: https://dev48v.infy.uk/solve/day8-live-captions.html
यह कोड SpeechRecognition API का उपयोग करता है।
दो सेटिंग्स एक साधारण डिक्टेशन बॉक्स और असली लाइव कैप्शन के बीच का अंतर तय करती हैं:
continuous = true: यह इंजन को लगातार सुनने में मदद करता है।interimResults = true: यह आपके बोलते समय आपके शब्दों को दिखाता है।
इनके बिना, इंजन केवल आपके रुकने के बाद ही टेक्स्ट दिखाता है। इनके साथ, आप वास्तविक समय (real time) में अनुमानित शब्द देख सकते हैं। इससे वह फ्लिकरिंग (flickering) कैप्शन वाला प्रभाव पैदा होता है।
यदि इंजन बहुत देर तक सन्नाटा सुनता है, तो वह रुक जाता है। आप onend इवेंट में इसे रीस्टार्ट करके इस समस्या को हल कर सकते हैं। यह लूप रुकने और शांत पलों के दौरान भी कैप्शन को चालू रखता है।
इस प्रक्रिया के लिए Chrome ऑडियो को Google सर्वर पर स्ट्रीम करता है। इसका मतलब है कि आपको इंटरनेट कनेक्शन की आवश्यकता है।
आप इसका उपयोग केवल माइक्रोफ़ोन के लिए ही नहीं कर सकते। आप वीडियो कॉल या YouTube टैब से भी ऑडियो कैप्चर कर सकते हैं। ऑडियो प्राप्त करने और उसे ट्रांसक्राइबर को भेजने के लिए getDisplayMedia का उपयोग करें।
ब्राउज़र में कई अप्रयुक्त (unused) फीचर्स होते हैं। लाइव कैप्शन और वॉयस कमांड केवल एक लाइन के कोड के माध्यम से उपलब्ध हैं। आपको किसी बैकएंड की आवश्यकता नहीं है।
स्रोत: https://dev.to/dev48v/i-built-live-captions-in-the-browser-no-api-key-no-server-4i7n