Я создал живые субтитры в браузере

Вам не нужен Whisper. Вам не нужен API-ключ. Вам не нужен сервер.

Chrome и Edge включают встроенный движок преобразования речи в текст. Я создал живые субтитры с его помощью, используя всего 30 строк кода.

Попробуйте здесь: https://dev48v.infy.uk/solve/day8-live-captions.html

Код использует SpeechRecognition API.

Две настройки отличают обычное окно диктовки от настоящих живых субтитров:

Без них движок показывает текст только после паузы. С ними вы видите варианты распознавания в реальном времени. Это создает тот самый эффект мерцающих субтитров.

Движок останавливается, если слишком долго слышит тишину. Это решается перезапуском в событии onend. Такой цикл позволяет субтитрам работать, несмотря на паузы и моменты тишины.

Для этого процесса Chrome передает аудио на серверы Google. Это означает, что вам нужно интернет-соединение.

Это можно использовать не только для микрофона. Вы можете захватывать аудио из видеозвонка или вкладки YouTube. Используйте getDisplayMedia, чтобы получить аудио и передать его транскрибатору.

В браузере много неиспользуемых возможностей. Живые субтитры и голосовые команды доступны всего одной строкой кода. Вам не нужен бэкенд.

Источник: https://dev.to/dev48v/i-built-live-captions-in-the-browser-no-api-key-no-server-4i7n