𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: 𝗟𝗟𝗠 𝗲𝘃𝗮𝗹𝘂𝗮𝘁𝗶𝗼𝗻 मधील उत्क्रांती
आम्ही नुकतेच redteam-ai-benchmark ची आवृत्ती 2.0 रिलीज केली आहे.
आवृत्ती 1.0 मध्ये 12 निश्चित प्रश्न वापरले होते. मॉडेल एखाद्या प्रश्नाला नकार देईल की ते एक्सप्लॉइट कोड (exploit code) लिहू शकेल, याचे ते मोजमाप करत असे. ते काम करत होते, परंतु त्यामध्ये काही त्रुटी होत्या. ते एकाच "गोल्डन उत्तर" (golden answer) वर अवलंबून होते. जर मॉडेलने वेगळ्या पद्धतीने योग्य उत्तर दिले, तर ते अपयशी ठरत असे. त्यामध्ये तपशीलाचाही अभाव होता. मॉडेल का अपयशी ठरले हे तुम्हाला समजू शकत नव्हते.
आवृत्ती 2.0 सर्व काही बदलून टाकते. आम्ही 12 प्रश्नांवरून 60 प्रश्नांवर गेलो आहोत.
आम्ही एक व्यावसायिक मूल्यांकन फ्रेमवर्क (evaluation framework) तयार करण्यासाठी POXEK AI सोबत काम केले आहे. हे आता केवळ वैयक्तिक साधन राहिलेले नाही. आता हे एक कम्युनिटी स्टँडर्ड (community standard) आहे.
v2 मध्ये काय नवीन आहे:
- स्ट्रक्चर्ड टॅक्सोनॉमी (Structured Taxonomy): प्रश्न Windows tradecraft, Cloud/IAM आणि Web exploitation सारख्या क्षेत्रांचा समावेश करतात.
- कठीणतेची पातळी (Difficulty Levels): आम्ही मूलभूत तथ्यांपासून ते जटिल बहु-स्तरीय ऑपरेटर कार्यांपर्यंत सर्व गोष्टींची चाचणी घेतो.
- अॅटॉमिक रूब्रिक्स (Atomic Rubrics): प्रत्येक प्रश्नासाठी विशिष्ट पास/फेल निकष आहेत. जेव्हा मॉडेल एखादी वैध पर्यायी पद्धत वापरते, तेव्हा हे 'फॉल्स निगेटिव्ह' (false negatives) टाळते.
- सात मुख्य मेट्रिक्स (Seven Core Metrics): आता तुम्ही नकार देण्याचे प्रमाण (refusal rates), तांत्रिक अचूकता (technical accuracy), गंभीर त्रुटींचे प्रमाण (critical error rates), पूर्णता (completeness), विशिष्टता (specificity), हॅल्युसिनेशन दर (hallucination rates) आणि लॅटन्सी (latency) ट्रॅक करू शकता.
- ऑडिट मेकॅनिझम (Audit Mechanism): आम्ही "LLM-as-Judge" लेयर वापरतो. हे केवळ विवादास्पद किंवा संदिग्ध प्रकरणांचे पुनरावलोकन करते. यामुळे पुनरुत्पादकता (reproducibility) न घालवता दुसरे मत मिळते.
हे तुमच्यासाठी का महत्त्वाचे आहे:
विक्रेत्यांच्या दाव्यांवर विश्वास ठेवणे थांबवा. वास्तविक डेटा मिळवण्यासाठी या बेंचमार्कचा वापर करा.
- धोकादायक मॉडेल्स शोधा: एखादे मॉडेल हुशार दिसू शकते परंतु त्याचा गंभीर त्रुटींचा दर (critical error rate) जास्त असू शकतो. याचा अर्थ ते पटण्यासारखा पण चुकीचा कोड तयार करते.
- अलाइनमेंट (alignment) समजून घ्या: मॉडेल सुरक्षित असल्यामुळे कामांना नकार देते की ते सक्षम नसल्यामुळे, हे पहा.
- कृती करण्यायोग्य फीडबॅक मिळवा: मॉडेल नेमके का अपयशी ठरते ते जाणून घ्या. त्यामध्ये डोमेन ज्ञानाचा अभाव आहे की त्याला तर्क लावण्यात (reasoning) अडचण येत आहे?
हे फ्रेमवर्क MIT लायसन्स अंतर्गत आहे. अधिकृत लॅब्स, संशोधन किंवा शैक्षणिक वातावरणात याचा वापर करा. आम्ही गैरवापर थांबवू शकत नाही, परंतु पारदर्शक स्कोअरिंगद्वारे गैरवापर दृश्यमान करू शकतो.
सुरुवात करा:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
Optional learning community: https://t.me/GyaanSetuAi
