我在浏览器中实现了实时字幕

你不需要 Whisper。你不需要 API 密钥。你不需要服务器。

Chrome 和 Edge 内置了语音转文本引擎。我仅用 30 行代码就利用它实现了实时字幕。

在这里尝试:https://dev48v.infy.uk/solve/day8-live-captions.html

该代码使用了 SpeechRecognition API。

两个设置决定了它是简单的听写框还是真正的实时字幕:

如果没有这些设置,引擎只有在你停顿时才会显示文本。有了它们,你可以实时看到预测结果。这便产生了那种字幕闪烁的效果。

如果长时间检测到静音,引擎就会停止。你可以通过在 onend 事件中重新启动它来解决这个问题。这种循环机制能确保字幕在停顿和安静时刻也能持续运行。

在此过程中,Chrome 会将音频流传输到 Google 服务器。这意味着你需要互联网连接。

它的用途不仅限于麦克风。你还可以从视频通话或 YouTube 标签页中捕获音频。使用 getDisplayMedia 来获取音频并将其输入到转录器中。

浏览器有很多未被充分利用的功能。只需一行代码,即可实现实时字幕和语音命令。你不需要后端。

来源:https://dev.to/dev48v/i-built-live-captions-in-the-browser-no-api-key-no-server-4i7n