Red Team AI Benchmark v2.0: Evolving LLM Evaluation

Translated for your language. Read the original.

AI-assisted draft.

Red Team AI Benchmark v2.0: Evolving LLM Evaluation

𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: تکامل ارزیابی LLM

ما به‌تازگی نسخه ۲.۰ redteam-ai-benchmark را منتشر کردیم.

نسخه ۱.۰ از ۱۲ سوال ثابت استفاده می‌کرد. این نسخه بررسی می‌کرد که آیا یک مدل به سوال پاسخ می‌دهد یا خیر، و یا اینکه آیا می‌تواند کد اکسپلویت (exploit code) بنویسد یا نه. این روش کار می‌کرد، اما نقص‌هایی داشت. این نسخه بر یک «پاسخ طلایی» (golden answer) واحد تکیه داشت؛ بنابراین اگر مدلی با استفاده از روشی متفاوت، پاسخی صحیح ارائه می‌داد، در ارزیابی شکست می‌خورد. همچنین فاقد جزئیات بود و نمی‌شد دلیل شکست یک مدل را متوجه شد.

نسخه ۲.۰ همه چیز را تغییر می‌دهد. ما تعداد سوالات را از ۱۲ به ۶۰ افزایش دادیم.

ما با همکاری POXEK AI یک چارچوب ارزیابی حرفه‌ای ساختیم. این دیگر صرفاً یک ابزار شخصی نیست، بلکه اکنون به یک استاندارد جامعه تبدیل شده است.

چه چیزهایی در نسخه ۲ جدید است:

Structured Taxonomy: طبقه‌بندی ساختاریافته: سوالات حوزه‌هایی مانند Windows tradecraft، Cloud/IAM و Web exploitation را پوشش می‌دهند.
Difficulty Levels: سطوح دشواری: ما همه چیز را، از حقایق پایه گرفته تا وظایف پیچیده و چندمرحله‌ای اپراتورها، آزمایش می‌کنیم.
Atomic Rubrics: معیارهای اتمیک (Atomic Rubrics): هر سوال دارای معیارهای مشخص برای قبولی یا مردودی است. این امر از نتایج منفی کاذب (false negatives) در زمانی که مدل از یک روش جایگزین معتبر استفاده می‌کند، جلوگیری می‌کند.
Seven Core Metrics: هفت معیار اصلی: اکنون می‌توانید نرخ عدم پاسخگویی (refusal rates)، دقت فنی، نرخ خطاهای بحرانی، کامل بودن، مشخص بودن (specificity)، نرخ توهم (hallucination rates) و تأخیر (latency) را ردیابی کنید.
Audit Mechanism: مکانیزم بازرسی: ما از یک لایه "LLM-as-Judge" استفاده می‌کنیم. این لایه فقط موارد مورد اختلاف یا مبهم را بررسی می‌کند. این کار بدون از بین بردن قابلیت بازتولید (reproducibility)، نظر دومی را ارائه می‌دهد.

چرا این موضوع برای شما اهمیت دارد:

دیگر به ادعاهای فروشندگان اعتماد نکنید. از این بنچمارک برای به‌دست آوردن داده‌های واقعی استفاده کنید.

Find dangerous models: شناسایی مدل‌های خطرناک: یک مدل ممکن است هوشمند به نظر برسد اما نرخ خطای بحرانی بالایی داشته باشد. این یعنی مدلی که کدهای باورپذیر اما اشتباه تولید می‌کند.
Understand alignment: درک هم‌راستایی (alignment): بررسی کنید که آیا یک مدل وظایف را رد می‌کند چون ایمن است یا چون توانایی انجام آن‌ها را ندارد.
Get actionable feedback: دریافت بازخورد کاربردی: دقیقاً بدانید چرا یک مدل شکست می‌خورد. آیا دانش حوزه را ندارد یا در استدلال کردن مشکل دارد؟

این چارچوب دارای مجوز MIT است. از آن در آزمایشگاه‌های مجاز، تحقیقات یا محیط‌های آموزشی استفاده کنید. ما نمی‌توانیم از سوءاستفاده جلوگیری کنیم، اما می‌توانیم از طریق امتیازدهی شفاف، سوءاستفاده را آشکار کنیم.

شروع کنید:

git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard

Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn

Optional learning community: https://t.me/GyaanSetuAi

Red Team AI Benchmark v2.0: Evolving LLM Evaluation

Continue reading

تیم قرمز هوش مصنوعی: ایمن‌سازی مدل‌های زبانی بزرگ در برابر مخاطرات خصمانه

شبیه‌سازی‌های هوش مصنوعی پیش از عرضه، معیار جدید بررسی ایمنی هستند

𝗚𝗟𝗠 𝟱.𝟮 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗟𝗲𝗮𝗱𝗶𝗻𝗴 𝗢𝗽𝗲𝗻 𝗪𝗲𝗶𝗴𝗵𝘁𝘀 𝗠𝗼𝗱𝗲𝗹

ارزیابی عملکرد مدل‌های زبانی بزرگ (LLM) برای کدنویسی در سال ۲۰۲۶

تیم قرمز هوش مصنوعی: آزمایش سیستم‌های هوش مصنوعی مانند یک مهاجم