میں نے براؤزر میں لائیو کیپشنز بنائے ہیں
آپ کو Whisper کی ضرورت نہیں ہے۔ آپ کو کسی API key کی ضرورت نہیں ہے۔ آپ کو کسی سرور کی ضرورت نہیں ہے۔
Chrome اور Edge میں ایک بلٹ ان speech-to-text انجن شامل ہوتا ہے۔ میں نے صرف 30 لائنوں کے کوڈ کے ذریعے اس کے ساتھ لائیو کیپشنز بنائے ہیں۔
اسے یہاں آزمائیں: https://dev48v.infy.uk/solve/day8-live-captions.html
یہ کوڈ SpeechRecognition API کا استعمال کرتا ہے۔
دو سیٹنگز ایک سادہ ڈکٹیشن باکس اور حقیقی لائیو کیپشنز کے درمیان فرق پیدا کرتی ہیں:
continuous = true: یہ انجن کو مسلسل سننے کے لیے رکھتا ہے۔interimResults = true: یہ آپ کے بولتے وقت آپ کے الفاظ دکھاتا ہے۔
ان کے بغیر، انجن صرف آپ کے رکنے کے بعد متن دکھاتا ہے۔ ان کے ساتھ، آپ ریئل ٹائم میں اندازے دیکھ سکتے ہیں۔ یہ کیپشنز کے جھلملانے کا وہی اثر پیدا کرتا ہے۔
اگر انجن زیادہ دیر تک خاموشی محسوس کرے تو وہ رک جاتا ہے۔ آپ اسے onend ایونٹ میں دوبارہ شروع کر کے اس مسئلے کو حل کر سکتے ہیں۔ یہ لوپ وقفوں اور خاموش لمحات کے دوران بھی کیپشنز کو چلتا رکھتا ہے۔
اس عمل کے لیے Chrome آڈیو کو Google سرورز پر اسٹریم کرتا ہے۔ اس کا مطلب ہے کہ آپ کو انٹرنیٹ کنکشن کی ضرورت ہے۔
آپ اسے مائیکروفون سے زیادہ چیزوں کے لیے استعمال کر سکتے ہیں۔ آپ ویڈیو کال یا YouTube ٹیب سے آڈیو حاصل کر سکتے ہیں۔ آڈیو حاصل کرنے اور اسے ٹرانسکرائبر کو فراہم کرنے کے لیے getDisplayMedia کا استعمال کریں۔
براؤزر میں بہت سے غیر استعمال شدہ فیچرز موجود ہیں۔ لائیو کیپشنز اور وائس کمانڈز صرف ایک لائن کے کوڈ کے ذریعے دستیاب ہیں۔ آپ کو بیک اینڈ کی ضرورت نہیں ہے۔
ماخذ: https://dev.to/dev48v/i-built-live-captions-in-the-browser-no-api-key-no-server-4i7n