Я створив живі субтитри в браузері
Вам не потрібен Whisper. Вам не потрібен API-ключ. Вам не потрібен сервер.
Chrome та Edge мають вбудований механізм перетворення мовлення в текст. Я створив за його допомогою живі субтитри, використавши лише 30 рядків коду.
Спробуйте тут: https://dev48v.infy.uk/solve/day8-live-captions.html
Код використовує SpeechRecognition API.
Два налаштування створюють різницю між звичайним вікном диктування та справжніми живими субтитрами:
continuous = true: це змушує механізм продовжувати прослуховування.interimResults = true: це відображає ваші слова безпосередньо під час мовлення.
Без них механізм показує текст лише після вашої паузи. З ними ви бачите варіанти розпізнавання в режимі реального часу. Це створює той самий ефект «мерехтливих» субтитрів.
Механізм зупиняється, якщо занадто довго триває тиша. Ви вирішуєте це, перезапускаючи його в події onend. Такий цикл дозволяє субтитрам працювати навіть під час пауз і мовчання.
Для цього процесу Chrome передає аудіо на сервери Google. Це означає, що вам потрібне інтернет-з'єднання.
Ви можете використовувати це не лише для мікрофона. Ви можете захоплювати аудіо з відеодзвінка або вкладки YouTube. Використовуйте getDisplayMedia, щоб отримати аудіо та передати його транскрибатору.
Браузер має багато невикористаних можливостей. Живі субтитри та голосові команди доступні за допомогою одного рядка коду. Вам не потрібен бекенд.
Джерело: https://dev.to/dev48v/i-built-live-captions-in-the-browser-no-api-key-no-server-4i7n