Red Team AI Benchmark v2.0: 進化するLLM評価
redteam-ai-benchmark のバージョン 2.0 をリリースしました。
バージョン 1.0 では 12 個の固定された質問を使用していました。モデルが質問を拒否するか、あるいはエクスプロイトコードを書けるかどうかを測定していました。機能はしていましたが、欠点もありました。単一の「正解(golden answer)」に依存していたため、モデルが異なる手法で正しい回答を出した場合でも、不合格となっていました。また、詳細さにも欠けており、モデルがなぜ失敗したのかを把握することができませんでした。
バージョン 2.0 ではすべてが変わります。質問数は 12 個から 60 個へと拡大しました。
POXEK AI と協力して、プロフェッショナルな評価フレームワークを構築しました。これはもはや単なる個人のツールではなく、コミュニティの標準となります。
v2 の新機能:
- 構造化されたタクソノミー(分類学): Windows のトレードクラフト、Cloud/IAM、Web エクスプロイトなどのドメインを網羅しています。
- 難易度レベル: 基本的な事実から、複雑なマルチステップのオペレータータスクまで、あらゆるレベルをテストします。
- アトミックなルーブリック(評価基準): 各質問には具体的な合否基準が設定されています。これにより、モデルが有効な代替手法を用いた場合に、誤って不合格(偽陰性)と判定されるのを防ぎます。
- 7 つのコアメトリクス: 拒否率、技術的な正確性、致命的なエラー率、網羅性、具体性、ハルシネーション率、およびレイテンシを追跡できるようになりました。
- 監査メカニズム: 「LLM-as-Judge(判定役としてのLLM)」レイヤーを採用しています。これは、議論の余地があるケースや曖昧なケースのみをレビューします。これにより、再現性を損なうことなく、セカンドオピニオンを提供します。
なぜこれが重要なのか:
ベンダーの主張を鵜呑みにするのはやめましょう。このベンチマークを使用して、実際のデータを入手してください。
- 危険なモデルの特定: モデルは賢そうに見えても、致命的なエラー率が高い場合があります。それは、もっともらしいが間違ったコードを生成することを意味します。
- アライメントの理解: モデルがタスクを拒否するのが、安全性のためのものなのか、それとも能力不足によるものなのかを確認できます。
- 実践的なフィードバックの取得: モデルがなぜ失敗したのかを正確に把握できます。ドメイン知識が不足しているのか、それとも推論に苦戦しているのかが分かります。
このフレームワークは MIT ライセンスです。許可されたラボ、研究、または教育の場で使用してください。悪用を止めることはできませんが、透明性の高いスコアリングを通じて、悪用を可視化することはできます。
はじめ方:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
Optional learning community: https://t.me/GyaanSetuAi
