真实的会议无法作为 AI 的基准

Translated for your language. 阅读原文.

AI-assisted draft.

GyaanSetu Editorial3周前2分钟阅读

你无法用真实的会议来为 AI 进行基准测试

我想找到最好的 AI 会议记录工具。我对比了 Granola、Fathom 和 Otter。

我首先录制了一场真实的会议。我将录音通过了这三个工具。然后我意识到我的实验是徒劳的。

要给转录文本评分，你需要一个正确的版本来进行对比。在真实的会议中，发生过的事情唯一的记录就是转录文本本身。我是在用学生自己的答案来批改考试。我没有标准答案。

如果你缺乏地面真值 (ground truth)，那就自己制造一个。

我先写了一个两人会议的剧本。我使用 ElevenLabs 将文本转为音频。现在，准确的词句是我亲手打出来的。我拥有了一份完美的标准答案。

我在剧本中加入了许多难词：

以下是我从结果中学到的东西：

这三个工具在原始准确率方面都表现出色。Otter 达到了 99% 的准确率。Fathom 最为精准。Granola 保留了意思，但有几行内容变得混乱。

原始准确率并不是正确的衡量指标。它仅仅是一个基准。真正的差异体现在两个方面：

“最好”的工具取决于你的目标：

你可以将此方法用于任何语音转文本测试。编写音频剧本以获得可重复的测试。加入难词以观察模型的失效点。使用同一段素材来观察供应商是否随着时间的推移确实改进了他们的模型。

合成音频干净且易于操作。它并不是对混乱的四人会议的完美模拟。但它提供了一个干净的基准，用于工具之间的相互比较。

Optional learning community: https://t.me/GyaanSetuAi