Red Team AI Benchmark v2.0: 進化するLLM評価

redteam-ai-benchmark のバージョン 2.0 をリリースしました。

バージョン 1.0 では 12 個の固定された質問を使用していました。モデルが質問を拒否するか、あるいはエクスプロイトコードを書けるかどうかを測定していました。機能はしていましたが、欠点もありました。単一の「正解(golden answer)」に依存していたため、モデルが異なる手法で正しい回答を出した場合でも、不合格となっていました。また、詳細さにも欠けており、モデルがなぜ失敗したのかを把握することができませんでした。

バージョン 2.0 ではすべてが変わります。質問数は 12 個から 60 個へと拡大しました。

POXEK AI と協力して、プロフェッショナルな評価フレームワークを構築しました。これはもはや単なる個人のツールではなく、コミュニティの標準となります。

v2 の新機能:

  • 構造化されたタクソノミー(分類学): Windows のトレードクラフト、Cloud/IAM、Web エクスプロイトなどのドメインを網羅しています。
  • 難易度レベル: 基本的な事実から、複雑なマルチステップのオペレータータスクまで、あらゆるレベルをテストします。
  • アトミックなルーブリック(評価基準): 各質問には具体的な合否基準が設定されています。これにより、モデルが有効な代替手法を用いた場合に、誤って不合格(偽陰性)と判定されるのを防ぎます。
  • 7 つのコアメトリクス: 拒否率、技術的な正確性、致命的なエラー率、網羅性、具体性、ハルシネーション率、およびレイテンシを追跡できるようになりました。
  • 監査メカニズム: 「LLM-as-Judge(判定役としてのLLM)」レイヤーを採用しています。これは、議論の余地があるケースや曖昧なケースのみをレビューします。これにより、再現性を損なうことなく、セカンドオピニオンを提供します。

なぜこれが重要なのか:

ベンダーの主張を鵜呑みにするのはやめましょう。このベンチマークを使用して、実際のデータを入手してください。

  • 危険なモデルの特定: モデルは賢そうに見えても、致命的なエラー率が高い場合があります。それは、もっともらしいが間違ったコードを生成することを意味します。
  • アライメントの理解: モデルがタスクを拒否するのが、安全性のためのものなのか、それとも能力不足によるものなのかを確認できます。
  • 実践的なフィードバックの取得: モデルがなぜ失敗したのかを正確に把握できます。ドメイン知識が不足しているのか、それとも推論に苦戦しているのかが分かります。

このフレームワークは MIT ライセンスです。許可されたラボ、研究、または教育の場で使用してください。悪用を止めることはできませんが、透明性の高いスコアリングを通じて、悪用を可視化することはできます。

はじめ方:

git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard

Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn

Optional learning community: https://t.me/GyaanSetuAi