لقد قمت ببناء ترجمة فورية (Live Captions) داخل المتصفح

لست بحاجة إلى Whisper. لست بحاجة إلى مفتاح API. لست بحاجة إلى خادم (server).

يتضمن Chrome و Edge محركاً مدمجاً لتحويل الكلام إلى نص. لقد قمت ببناء ترجمة فورية باستخدامه عبر 30 سطراً من الكود فقط.

جربه من هنا: https://dev48v.infy.uk/solve/day8-live-captions.html

يستخدم الكود واجهة برمجة تطبيقات SpeechRecognition API.

هناك إعدادان يصنعان الفرق بين صندوق إملاء بسيط وبين ترجمة فورية حقيقية:

بدون هذين الإعدادين، لن يعرض المحرك النص إلا بعد توقفك عن الكلام. أما بوجودهما، فستشاهد التوقعات في الوقت الفعلي، مما يخلق تأثير الترجمة الوامضة (flickering caption effect).

يتوقف المحرك إذا استشعر صمتاً لفترة طويلة. يمكنك حل هذه المشكلة عن طريق إعادة تشغيله في حدث onend. تضمن هذه الحلقة استمرار الترجمة خلال فترات التوقف واللحظات الهادئة.

يقوم Chrome ببث الصوت إلى خوادم Google لإتمام هذه العملية، مما يعني أنك بحاجة إلى اتصال بالإنترنت.

يمكنك استخدام هذا لأكثر من مجرد ميكروفون؛ حيث يمكنك التقاط الصوت من مكالمة فيديو أو من علامة تبويب في YouTube. استخدم getDisplayMedia لالتقاط الصوت وتمريره إلى أداة النسخ (transcriber).

يحتوي المتصفح على العديد من الميزات غير المستغلة. تتوفر الترجمة الفورية والأوامر الصوتية عبر سطر واحد من الكود، ولا تحتاج إلى واجهة خلفية (backend).

المصدر: https://dev.to/dev48v/i-built-live-captions-in-the-browser-no-api-key-no-server-4i7n