你无法用真实的会议来为 AI 进行基准测试

我想找到最好的 AI 会议记录工具。我对比了 Granola、Fathom 和 Otter。

我首先录制了一场真实的会议。我将录音通过了这三个工具。然后我意识到我的实验是徒劳的。

要给转录文本评分,你需要一个正确的版本来进行对比。在真实的会议中,发生过的事情唯一的记录就是转录文本本身。我是在用学生自己的答案来批改考试。我没有标准答案。

如果你缺乏地面真值 (ground truth),那就自己制造一个。

我先写了一个两人会议的剧本。我使用 ElevenLabs 将文本转为音频。现在,准确的词句是我亲手打出来的。我拥有了一份完美的标准答案。

我在剧本中加入了许多难词:

  • 季度标签 (Q3, Q2)
  • 百分比 (5.2%, 6.8%)
  • 美元金额 ($16 到 $19)
  • 专业术语 (churn, cohort, SSO, p95)
  • 姓名和截止日期

以下是我从结果中学到的东西:

这三个工具在原始准确率方面都表现出色。Otter 达到了 99% 的准确率。Fathom 最为精准。Granola 保留了意思,但有几行内容变得混乱。

原始准确率并不是正确的衡量指标。它仅仅是一个基准。真正的差异体现在两个方面:

  1. 有意义的标记 (Meaningful tokens):Otter 的准确率很高,但将 "Q3" 变成了 "Q"。在商务会议中,这种错误会毁掉数据。
  2. 说话人识别 (Speaker attribution):Otter 是唯一能正确识别谁在何时说话的工具。Granola 给我的只是一长串没有名字的文本流。

“最好”的工具取决于你的目标:

  • 如果你需要知道谁说了什么,请使用 Otter。
  • 如果你需要完美的数字和专业术语,请使用 Fathom。
  • 如果你想要一个无需机器人的个人笔记体验,请使用 Granola。

你可以将此方法用于任何语音转文本测试。编写音频剧本以获得可重复的测试。加入难词以观察模型的失效点。使用同一段素材来观察供应商是否随着时间的推移确实改进了他们的模型。

合成音频干净且易于操作。它并不是对混乱的四人会议的完美模拟。但它提供了一个干净的基准,用于工具之间的相互比较。

Source: https://dev.to/tiennguyenftuk52/you-cant-benchmark-an-ai-notetaker-against-a-real-meeting-you-dont-know-the-right-answer-so-i-3llo

Optional learning community: https://t.me/GyaanSetuAi