実際の会議でAIのベンチマークを行うことはできない
最高のAI議事録作成ツールを見つけたいと思い、Granola、Fathom、Otterを比較してみました。
まず、実際の会議を録音することから始めました。その録音データを3つのツールすべてに通してみたのですが、その実験が無意味であることに気づいたのです。
文字起こしの精度を評価するには、比較対象となる「正解」が必要です。実際の会議において、何が起きたかを示す唯一の記録は文字起こしそのものです。私は、学生自身の回答を使って試験を採点していたようなものでした。正解(解答集)がなかったのです。
もし正解(グラウンド・トゥルース)が不足しているなら、自作すればいいのです。
まず、2人による会議のスクリプトを書きました。次に、ElevenLabsを使ってそのテキストを音声に変換しました。これで、正確な言葉は自分が入力したものになります。完璧な解答集を手に入れたことになります。
スクリプトには、あえて難しい用語を詰め込みました:
- 四半期のラベル (Q3, Q2)
- パーセンテージ (5.2%, 6.8%)
- ドル表記 ($16 to $19)
- 専門用語 (churn, cohort, SSO, p95)
- 名前と締め切り
結果から学んだことは以下の通りです:
3つのツールすべて、生の正確性(raw accuracy)においては非常に優れていました。Otterは99%の精度を記録しました。Fathomが最も精密でした。Granolaは意味こそ維持していましたが、数行の文章が乱れていました。
生の正確性は、間違った指標です。それは単なるベースラインに過ぎません。真の違いは、次の2つの領域に現れます:
- 意味を持つトークン:Otterは精度は高かったものの、「Q3」を「Q」にしてしまいました。ビジネス会議において、このミスはデータを台無しにします。
- 話者の特定:誰がいつ話したかを正しく識別できたのはOtterだけでした。Granolaは名前のない、一つの長いテキストの塊を出力しました。
「最高」のツールは、目的によって異なります:
- 誰が何を言ったかを知る必要がある場合は、Otterを使用してください。
- 正確な数値や専門用語が必要な場合は、Fathomを使用してください。
- ボットなしで自分用のメモを取りたい場合は、Granolaを使用してください。
この手法は、あらゆる音声文字起こしテストに応用できます。再現可能なテストを行うために、音声をスクリプト化しましょう。モデルがどこで失敗するかを確認するために、難しい単語を追加します。同じクリップを使い続けることで、ベンダーが時間の経過とともに実際にモデルを改善しているかを確認することもできます。
合成音声はクリーンで簡単です。4人が入り乱れるような混乱した会議の完璧なシミュレーションではありません。しかし、ツール同士を比較するためのクリーンなベースラインを提供してくれます。
オプションの学習コミュニティ: https://t.me/GyaanSetuAi