我在浏览器中构建了实时字幕

Machine-translated. Read the original.

📅3 hours ago⏱1 min read

我在浏览器中实现了实时字幕

你不需要 Whisper。你不需要 API 密钥。你不需要服务器。

Chrome 和 Edge 内置了语音转文本引擎。我仅用 30 行代码就利用它实现了实时字幕。

该代码使用了 SpeechRecognition API。

两个设置决定了它是简单的听写框还是真正的实时字幕：

如果没有这些设置，引擎只有在你停顿时才会显示文本。有了它们，你可以实时看到预测结果。这便产生了那种字幕闪烁的效果。

如果长时间检测到静音，引擎就会停止。你可以通过在 onend 事件中重新启动它来解决这个问题。这种循环机制能确保字幕在停顿和安静时刻也能持续运行。

在此过程中，Chrome 会将音频流传输到 Google 服务器。这意味着你需要互联网连接。

它的用途不仅限于麦克风。你还可以从视频通话或 YouTube 标签页中捕获音频。使用 getDisplayMedia 来获取音频并将其输入到转录器中。

浏览器有很多未被充分利用的功能。只需一行代码，即可实现实时字幕和语音命令。你不需要后端。

Continue reading