Ho creato i sottotitoli in tempo reale nel browser

Non hai bisogno di Whisper. Non hai bisogno di una chiave API. Non hai bisogno di un server.

Chrome ed Edge includono un motore speech-to-text integrato. Ho creato i sottotitoli in tempo reale usando solo 30 righe di codice.

Provalo qui: https://dev48v.infy.uk/solve/day8-live-captions.html

Il codice utilizza la SpeechRecognition API.

Due impostazioni fanno la differenza tra una semplice casella di dettatura e veri sottotitoli in tempo reale:

Senza queste opzioni, il motore mostra il testo solo dopo una pausa. Con queste, vedi le previsioni in tempo reale. Questo crea quell'effetto di sottotitoli lampeggianti.

Il motore si ferma se rileva il silenzio per troppo tempo. Puoi risolvere il problema riavviandolo nell'evento onend. Questo ciclo permette ai sottotitoli di continuare a funzionare durante le pause e i momenti di silenzio.

Chrome trasmette l'audio ai server Google per questo processo. Ciò significa che è necessaria una connessione internet.

Puoi usare questa tecnica per qualcosa di più di un semplice microfono. Puoi catturare l'audio da una videochiamata o da una scheda di YouTube. Usa getDisplayMedia per acquisire l'audio e inviarlo al trascritore.