J'ai créé des sous-titres en direct dans le navigateur
Pas besoin de Whisper. Pas besoin de clé API. Pas besoin de serveur.
Chrome et Edge incluent un moteur de reconnaissance vocale intégré. J'ai créé des sous-titres en direct avec ce moteur en seulement 30 lignes de code.
Essayez-le ici : https://dev48v.infy.uk/solve/day8-live-captions.html
Le code utilise l'API SpeechRecognition.
Deux paramètres font la différence entre une simple boîte de dictée et de véritables sous-titres en direct :
- continuous = true : cela permet au moteur de rester à l'écoute.
- interimResults = true : cela affiche vos mots pendant que vous parlez.
Sans eux, le moteur n'affiche le texte qu'après une pause. Avec eux, vous voyez les prédictions en temps réel. Cela crée cet effet de scintillement des sous-titres.
Le moteur s'arrête s'il détecte un silence trop long. On résout ce problème en le redémarrant lors de l'événement onend. Cette boucle permet de maintenir les sous-titres actifs malgré les pauses et les moments de silence.
Chrome transmet l'audio aux serveurs de Google pour ce processus. Cela signifie qu'une connexion Internet est nécessaire.
Vous pouvez utiliser cela pour plus qu'un simple microphone. Vous pouvez capturer l'audio d'un appel vidéo ou d'un onglet YouTube. Utilisez getDisplayMedia pour récupérer l'audio et l'envoyer au transcripteur.
Le navigateur possède de nombreuses fonctionnalités inutilisées. Les sous-titres en direct et les commandes vocales sont accessibles avec une seule ligne de code. Vous n'avez pas besoin de backend.
Source : https://dev.to/dev48v/i-built-live-captions-in-the-browser-no-api-key-no-server-4i7n