実際の会議でAIをベンチマークすることはできない

Translated for your language. 原文を読む.

AI-assisted draft.

GyaanSetu Editorial3 週間前2分で読めます

実際の会議でAIのベンチマークを行うことはできない

最高のAI議事録作成ツールを見つけたいと思い、Granola、Fathom、Otterを比較してみました。

まず、実際の会議を録音することから始めました。その録音データを3つのツールすべてに通してみたのですが、その実験が無意味であることに気づいたのです。

文字起こしの精度を評価するには、比較対象となる「正解」が必要です。実際の会議において、何が起きたかを示す唯一の記録は文字起こしそのものです。私は、学生自身の回答を使って試験を採点していたようなものでした。正解（解答集）がなかったのです。

もし正解（グラウンド・トゥルース）が不足しているなら、自作すればいいのです。

まず、2人による会議のスクリプトを書きました。次に、ElevenLabsを使ってそのテキストを音声に変換しました。これで、正確な言葉は自分が入力したものになります。完璧な解答集を手に入れたことになります。

スクリプトには、あえて難しい用語を詰め込みました：

結果から学んだことは以下の通りです：

3つのツールすべて、生の正確性（raw accuracy）においては非常に優れていました。Otterは99%の精度を記録しました。Fathomが最も精密でした。Granolaは意味こそ維持していましたが、数行の文章が乱れていました。

生の正確性は、間違った指標です。それは単なるベースラインに過ぎません。真の違いは、次の2つの領域に現れます：

「最高」のツールは、目的によって異なります：

この手法は、あらゆる音声文字起こしテストに応用できます。再現可能なテストを行うために、音声をスクリプト化しましょう。モデルがどこで失敗するかを確認するために、難しい単語を追加します。同じクリップを使い続けることで、ベンダーが時間の経過とともに実際にモデルを改善しているかを確認することもできます。

合成音声はクリーンで簡単です。4人が入り乱れるような混乱した会議の完璧なシミュレーションではありません。しかし、ツール同士を比較するためのクリーンなベースラインを提供してくれます。

オプションの学習コミュニティ: https://t.me/GyaanSetuAi