AIエージェントの評価は、あまりにも早く終わってしまう

多くの人は、AIエージェントの評価はリリース時に終わると考えています。ベンチマークで高いスコアが出れば、そのエージェントは準備万端だと決めつけてしまうのです。しかし、これは間違いです。

高いスコアは、多くの場合、エージェントがいくつかの特定のケースを通過したことを意味するに過ぎません。それが、エージェントが実世界に対応できる準備ができていることを意味するわけではないのです。

現在のベンチマークには、大きな欠陥があります。15の主要なベンチマークを調査した結果、以下のことが明らかになりました:

  • スコアに安全性やセキュリティを含めているベンチマークは皆無でした。
  • コスト効率を含めているベンチマークは皆無でした。
  • 15件中13件が、成否の二値判定のみに依存していました。
  • デプロイの準備が50%に達しているものは一つもありませんでした。

最終的な出力だけをテストするのは危険です。エージェントが正しい回答を出せば、成功したように見えます。しかし、そこに至るまでのプロセスが壊れている可能性があります。

エージェントは以下のような挙動をする可能性があります:

  • 正しい答えを出すために、間違ったツールを使用する。
  • 検証ステップを完全にスキップする。
  • 事実をハルシネーション(捏造)しながらも、正しい結論にたどり着く。
  • 絶え間ないリトライによって予算を使い果たす。

もしカスタマーサポートエージェントが、誤ったアカウントに対して返金処理を行った場合、出力自体は問題なさそうに見えます。しかし、エージェントとしては失敗なのです。

回答だけでなく、そのプロセス(軌跡)をスコア化しなければなりません。

真の評価には、以下の次元が含まれている必要があります:

  • ツールとパラメータの正確性。
  • グラウンディング(根拠付け)と正確性。
  • コストとレイテンシ。
  • ポリシーと安全性。
  • エラーからの回復力。

評価を「リリース報告書」として扱うのはやめましょう。継続的なループとして扱うべきです。

より良い進め方:

  • 能力を測定するための公開ベンチマークを構築する。
  • リリース前にオフラインテストを実行する。
  • 本番環境のトレースをリアルタイムで監視する。
  • ツール呼び出し、引数、および中間的な決定をキャプチャする。
  • 本番環境での失敗したトレースを使用して、オフラインのデータセットを改善する。

評価とは、オブザーバビリティ(観測可能性)の問題です。エージェントの挙動が、ビジネス目標、使用するツール、そしてユーザーの意図と一貫している場合にのみ、そのエージェントは成功していると言えます。これらは日々変化するものです。

単にトレースを保存するだけでは不十分です。それらを評価してください。評価を伴わないトレースの保存は、単なる検索の問題に過ぎません。本番データのないオフライン評価は、単なる「見せかけ」に過ぎないのです。

評価の最終ステップは、スコアであってはなりません。最終ステップは「次のトレース」であるべきです。

Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa

Optional learning community: https://t.me/GyaanSetuAi