Red Team AI Benchmark v2.0: Evolving LLM Evaluation

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial3 घंटे पहले2मिनट पढ़ें

Red Team AI Benchmark v2.0: Evolving LLM Evaluation

Red Team AI Benchmark v2.0: LLM Evaluation का विकास

हमने अभी redteam-ai-benchmark का वर्ज़न 2.0 जारी किया है।

वर्ज़न 1.0 में 12 निश्चित प्रश्नों का उपयोग किया गया था। इसने यह मापा कि क्या कोई मॉडल किसी प्रश्न को अस्वीकार कर देगा या क्या वह exploit code लिख सकता है। यह काम तो करता था, लेकिन इसमें कुछ कमियां थीं। यह एक एकल "golden answer" पर निर्भर था। यदि कोई मॉडल किसी अलग तरीके का उपयोग करके सही उत्तर देता था, तो उसे विफल मान लिया जाता था। इसमें विस्तार की भी कमी थी। आप यह नहीं देख सकते थे कि कोई मॉडल क्यों विफल हुआ।

वर्ज़न 2.0 सब कुछ बदल देता है। हम 12 प्रश्नों से बढ़कर 60 प्रश्नों पर आ गए हैं।

हमने एक प्रोफेशनल इवैल्यूएशन फ्रेमवर्क बनाने के लिए POXEK AI के साथ काम किया। यह अब केवल एक व्यक्तिगत टूल नहीं रह गया है। अब यह एक कम्युनिटी स्टैंडर्ड है।

v2 में नया क्या है:

Structured Taxonomy: प्रश्न Windows tradecraft, Cloud/IAM, और Web exploitation जैसे डोमेन को कवर करते हैं।
Difficulty Levels: हम बुनियादी तथ्यों से लेकर जटिल मल्टी-स्टेप ऑपरेटर कार्यों तक सब कुछ टेस्ट करते हैं।
Atomic Rubrics: प्रत्येक प्रश्न के पास/फेल (pass/fail) के विशिष्ट मानदंड हैं। यह तब 'फॉल्स नेगेटिव' (false negatives) को रोकता है जब कोई मॉडल किसी वैध वैकल्पिक तरीके का उपयोग करता है।
Seven Core Metrics: अब आप refusal rates, technical accuracy, critical error rates, completeness, specificity, hallucination rates, और latency को ट्रैक कर सकते हैं।
Audit Mechanism: हम एक "LLM-as-Judge" लेयर का उपयोग करते हैं। यह केवल विवादित या संदिग्ध मामलों की समीक्षा करता है। यह reproducibility को प्रभावित किए बिना एक दूसरी राय प्रदान करता है।

यह आपके लिए क्यों महत्वपूर्ण है:

वेंडर्स के दावों पर भरोसा करना बंद करें। वास्तविक डेटा प्राप्त करने के लिए इस बेंचमार्क का उपयोग करें।

खतरनाक मॉडल्स का पता लगाएं: एक मॉडल स्मार्ट लग सकता है लेकिन उसकी critical error rate अधिक हो सकती है। इसका मतलब है कि वह विश्वसनीय दिखने वाला लेकिन गलत कोड बनाता है।
Alignment को समझें: देखें कि क्या कोई मॉडल कार्यों को इसलिए अस्वीकार करता है क्योंकि वह सुरक्षित है या इसलिए क्योंकि वह सक्षम नहीं है।
उपयोगी फीडबैक प्राप्त करें: जानें कि कोई मॉडल ठीक क्यों विफल होता है। क्या उसमें डोमेन ज्ञान की कमी है या उसे रीजनिंग (reasoning) में कठिनाई हो रही है?

यह फ्रेमवर्क MIT लाइसेंस प्राप्त है। इसका उपयोग अधिकृत लैब, अनुसंधान, या शैक्षिक सेटिंग्स में करें। हम दुरुपयोग को नहीं रोक सकते, लेकिन हम पारदर्शी स्कोरिंग के माध्यम से दुरुपयोग को दृश्यमान बना सकते हैं।

शुरुआत करें:

git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard

Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn

Optional learning community: https://t.me/GyaanSetuAi

Red Team AI Benchmark v2.0: Evolving LLM Evaluation

पढ़ना जारी रखें

AI रेड टीमिंग: प्रतिकूल जोखिमों से लार्ज लैंग्वेज मॉडल्स को सुरक्षित करना

लॉन्च से पहले के AI सिमुलेशन अब नए सुरक्षा चेक हैं

𝗚𝗟𝗠 𝟱.𝟮 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗟𝗲𝗮𝗱𝗶𝗻𝗴 𝗢𝗽𝗲𝗻 𝗪𝗲𝗶𝗴𝗵𝘁𝘀 𝗠𝗼𝗱𝗲𝗹

2026 में कोडिंग के लिए LLMs का बेंचमार्किंग

AI रेड टीमिंग: एक हमलावर की तरह AI सिस्टम का परीक्षण करना