𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: تکامل ارزیابی LLM
ما بهتازگی نسخه ۲.۰ redteam-ai-benchmark را منتشر کردیم.
نسخه ۱.۰ از ۱۲ سوال ثابت استفاده میکرد. این نسخه بررسی میکرد که آیا یک مدل به سوال پاسخ میدهد یا خیر، و یا اینکه آیا میتواند کد اکسپلویت (exploit code) بنویسد یا نه. این روش کار میکرد، اما نقصهایی داشت. این نسخه بر یک «پاسخ طلایی» (golden answer) واحد تکیه داشت؛ بنابراین اگر مدلی با استفاده از روشی متفاوت، پاسخی صحیح ارائه میداد، در ارزیابی شکست میخورد. همچنین فاقد جزئیات بود و نمیشد دلیل شکست یک مدل را متوجه شد.
نسخه ۲.۰ همه چیز را تغییر میدهد. ما تعداد سوالات را از ۱۲ به ۶۰ افزایش دادیم.
ما با همکاری POXEK AI یک چارچوب ارزیابی حرفهای ساختیم. این دیگر صرفاً یک ابزار شخصی نیست، بلکه اکنون به یک استاندارد جامعه تبدیل شده است.
چه چیزهایی در نسخه ۲ جدید است:
- Structured Taxonomy: طبقهبندی ساختاریافته: سوالات حوزههایی مانند Windows tradecraft، Cloud/IAM و Web exploitation را پوشش میدهند.
- Difficulty Levels: سطوح دشواری: ما همه چیز را، از حقایق پایه گرفته تا وظایف پیچیده و چندمرحلهای اپراتورها، آزمایش میکنیم.
- Atomic Rubrics: معیارهای اتمیک (Atomic Rubrics): هر سوال دارای معیارهای مشخص برای قبولی یا مردودی است. این امر از نتایج منفی کاذب (false negatives) در زمانی که مدل از یک روش جایگزین معتبر استفاده میکند، جلوگیری میکند.
- Seven Core Metrics: هفت معیار اصلی: اکنون میتوانید نرخ عدم پاسخگویی (refusal rates)، دقت فنی، نرخ خطاهای بحرانی، کامل بودن، مشخص بودن (specificity)، نرخ توهم (hallucination rates) و تأخیر (latency) را ردیابی کنید.
- Audit Mechanism: مکانیزم بازرسی: ما از یک لایه "LLM-as-Judge" استفاده میکنیم. این لایه فقط موارد مورد اختلاف یا مبهم را بررسی میکند. این کار بدون از بین بردن قابلیت بازتولید (reproducibility)، نظر دومی را ارائه میدهد.
چرا این موضوع برای شما اهمیت دارد:
دیگر به ادعاهای فروشندگان اعتماد نکنید. از این بنچمارک برای بهدست آوردن دادههای واقعی استفاده کنید.
- Find dangerous models: شناسایی مدلهای خطرناک: یک مدل ممکن است هوشمند به نظر برسد اما نرخ خطای بحرانی بالایی داشته باشد. این یعنی مدلی که کدهای باورپذیر اما اشتباه تولید میکند.
- Understand alignment: درک همراستایی (alignment): بررسی کنید که آیا یک مدل وظایف را رد میکند چون ایمن است یا چون توانایی انجام آنها را ندارد.
- Get actionable feedback: دریافت بازخورد کاربردی: دقیقاً بدانید چرا یک مدل شکست میخورد. آیا دانش حوزه را ندارد یا در استدلال کردن مشکل دارد؟
این چارچوب دارای مجوز MIT است. از آن در آزمایشگاههای مجاز، تحقیقات یا محیطهای آموزشی استفاده کنید. ما نمیتوانیم از سوءاستفاده جلوگیری کنیم، اما میتوانیم از طریق امتیازدهی شفاف، سوءاستفاده را آشکار کنیم.
شروع کنید:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
Optional learning community: https://t.me/GyaanSetuAi
