Red Team AI Benchmark v2.0: LLM Evaluation का विकास

हमने अभी redteam-ai-benchmark का वर्ज़न 2.0 जारी किया है।

वर्ज़न 1.0 में 12 निश्चित प्रश्नों का उपयोग किया गया था। इसने यह मापा कि क्या कोई मॉडल किसी प्रश्न को अस्वीकार कर देगा या क्या वह exploit code लिख सकता है। यह काम तो करता था, लेकिन इसमें कुछ कमियां थीं। यह एक एकल "golden answer" पर निर्भर था। यदि कोई मॉडल किसी अलग तरीके का उपयोग करके सही उत्तर देता था, तो उसे विफल मान लिया जाता था। इसमें विस्तार की भी कमी थी। आप यह नहीं देख सकते थे कि कोई मॉडल क्यों विफल हुआ।

वर्ज़न 2.0 सब कुछ बदल देता है। हम 12 प्रश्नों से बढ़कर 60 प्रश्नों पर आ गए हैं।

हमने एक प्रोफेशनल इवैल्यूएशन फ्रेमवर्क बनाने के लिए POXEK AI के साथ काम किया। यह अब केवल एक व्यक्तिगत टूल नहीं रह गया है। अब यह एक कम्युनिटी स्टैंडर्ड है।

v2 में नया क्या है:

  • Structured Taxonomy: प्रश्न Windows tradecraft, Cloud/IAM, और Web exploitation जैसे डोमेन को कवर करते हैं।
  • Difficulty Levels: हम बुनियादी तथ्यों से लेकर जटिल मल्टी-स्टेप ऑपरेटर कार्यों तक सब कुछ टेस्ट करते हैं।
  • Atomic Rubrics: प्रत्येक प्रश्न के पास/फेल (pass/fail) के विशिष्ट मानदंड हैं। यह तब 'फॉल्स नेगेटिव' (false negatives) को रोकता है जब कोई मॉडल किसी वैध वैकल्पिक तरीके का उपयोग करता है।
  • Seven Core Metrics: अब आप refusal rates, technical accuracy, critical error rates, completeness, specificity, hallucination rates, और latency को ट्रैक कर सकते हैं।
  • Audit Mechanism: हम एक "LLM-as-Judge" लेयर का उपयोग करते हैं। यह केवल विवादित या संदिग्ध मामलों की समीक्षा करता है। यह reproducibility को प्रभावित किए बिना एक दूसरी राय प्रदान करता है।

यह आपके लिए क्यों महत्वपूर्ण है:

वेंडर्स के दावों पर भरोसा करना बंद करें। वास्तविक डेटा प्राप्त करने के लिए इस बेंचमार्क का उपयोग करें।

  • खतरनाक मॉडल्स का पता लगाएं: एक मॉडल स्मार्ट लग सकता है लेकिन उसकी critical error rate अधिक हो सकती है। इसका मतलब है कि वह विश्वसनीय दिखने वाला लेकिन गलत कोड बनाता है।
  • Alignment को समझें: देखें कि क्या कोई मॉडल कार्यों को इसलिए अस्वीकार करता है क्योंकि वह सुरक्षित है या इसलिए क्योंकि वह सक्षम नहीं है।
  • उपयोगी फीडबैक प्राप्त करें: जानें कि कोई मॉडल ठीक क्यों विफल होता है। क्या उसमें डोमेन ज्ञान की कमी है या उसे रीजनिंग (reasoning) में कठिनाई हो रही है?

यह फ्रेमवर्क MIT लाइसेंस प्राप्त है। इसका उपयोग अधिकृत लैब, अनुसंधान, या शैक्षिक सेटिंग्स में करें। हम दुरुपयोग को नहीं रोक सकते, लेकिन हम पारदर्शी स्कोरिंग के माध्यम से दुरुपयोग को दृश्यमान बना सकते हैं।

शुरुआत करें:

git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard

Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn

Optional learning community: https://t.me/GyaanSetuAi