Red Team AI Benchmark v2.0: Evolving LLM Evaluation
మేము ఇప్పుడే redteam-ai-benchmark యొక్క వెర్షన్ 2.0 ని విడుదల చేశాము.
వెర్షన్ 1.0 లో 12 స్థిరమైన ప్రశ్నలను ఉపయోగించాము. ఒక మోడల్ ప్రశ్నను తిరస్కరిస్తుందా లేదా అది ఎక్స్ప్లాయిట్ కోడ్ (exploit code) రాయగలదా అని ఇది కొలవడమైంది. ఇది పనిచేసింది, కానీ ఇందులో లోపాలు ఉన్నాయి. ఇది ఒకే ఒక "గోల్డెన్ ఆన్సర్" (golden answer) పై ఆధారపడి ఉండేది. ఒక మోడల్ వేరే పద్ధతిని ఉపయోగించి సరైన సమాధానం ఇస్తే, అది విఫలమైందని పరిగణించబడేది. అలాగే ఇందులో వివరాలు కూడా తక్కువగా ఉండేవి. ఒక మోడల్ ఎందుకు విఫలమైందో మీరు తెలుసుకోలేరు.
వెర్షన్ 2.0 అన్నింటినీ మారుస్తుంది. మేము 12 ప్రశ్నల నుండి 60 ప్రశ్నలకు మారాము.
ఒక ప్రొఫెషనల్ ఎవాల్యుయేషన్ ఫ్రేమ్వర్క్ను రూపొందించడానికి మేము POXEK AI తో కలిసి పనిచేశాము. ఇది ఇప్పుడు కేవలం ఒక వ్యక్తిగత సాధనం మాత్రమే కాదు. ఇది ఇప్పుడు ఒక కమ్యూనిటీ ప్రమాణం (community standard).
v2 లో కొత్తగా ఏముంది:
- స్ట్రక్చర్డ్ టాక్సోనమీ (Structured Taxonomy): ప్రశ్నలు Windows tradecraft, Cloud/IAM మరియు Web exploitation వంటి డొమైన్లను కవర్ చేస్తాయి.
- డిఫికల్టీ లెవల్స్ (Difficulty Levels): మేము ప్రాథమిక అంశాల నుండి సంక్లిష్టమైన మల్టీ-స్టెప్ ఆపరేటర్ టాస్క్ల వరకు అన్నింటినీ పరీక్షిస్తాము.
- అటామిక్ రూబ్రిక్స్ (Atomic Rubrics): ప్రతి ప్రశ్నకు నిర్దిష్టమైన పాస్/ఫెయిల్ ప్రమాణాలు ఉంటాయి. ఒక మోడల్ సరైన ప్రత్యామ్నాయ పద్ధతిని ఉపయోగించినప్పుడు, ఇది తప్పుడు ఫలితాలను (false negatives) నివారిస్తుంది.
- ఏడు ప్రధాన మెట్రిక్స్ (Seven Core Metrics): మీరు ఇప్పుడు refusal rates, technical accuracy, critical error rates, completeness, specificity, hallucination rates మరియు latencyలను ట్రాక్ చేయవచ్చు.
- ఆడిట్ మెకానిజం (Audit Mechanism): మేము "LLM-as-Judge" లేయర్ను ఉపయోగిస్తాము. ఇది వివాదాస్పద లేదా అస్పష్టమైన కేసులను మాత్రమే సమీక్షిస్తుంది. ఇది రీప్రొడ్యూసిబిలిటీని (reproducibility) దెబ్బతీయకుండా రెండవ అభిప్రాయాన్ని అందిస్తుంది.
ఇది మీకు ఎందుకు ముఖ్యం:
వెండర్ల (vendor) వాదనలను నమ్మడం ఆపండి. నిజమైన డేటాను పొందడానికి ఈ బెంచ్మార్క్ను ఉపయోగించండి.
- ప్రమాదకరమైన మోడళ్లను గుర్తించండి: ఒక మోడల్ తెలివైనదిగా అనిపించవచ్చు కానీ దానిలో క్రిటికల్ ఎర్రర్ రేట్ (critical error rate) ఎక్కువగా ఉండవచ్చు. అంటే అది నమ్మశక్యంగా ఉన్నా, తప్పు కోడ్ను ఉత్పత్తి చేస్తుంది.
- అలైన్మెంట్ను (alignment) అర్థం చేసుకోండి: ఒక మోడల్ సురక్షితంగా ఉండటం వల్ల పనులను తిరస్కరిస్తుందా లేదా అది సామర్థ్యం లేకపోవడం వల్ల తిరస్కరిస్తుందా అనేది చూడండి.
- ఉపయోగకరమైన ఫీడ్బ్యాక్ పొందండి: ఒక మోడల్ ఎందుకు విఫలమవుతుందో ఖచ్చితంగా తెలుసుకోండి. దానికి డొమైన్ నాలెడ్జ్ లేకపోవడమా లేదా రీజనింగ్లో ఇబ్బంది పడుతుందా?
ఈ ఫ్రేమ్వర్క్ MIT లైసెన్స్తో ఉంది. దీనిని అధీకృత ల్యాబ్లు, పరిశోధన లేదా విద్యా రంగాలలో ఉపయోగించండి. దుర్వినియోగాన్ని మేము ఆపలేము, కానీ పారదర్శకమైన స్కోరింగ్ ద్వారా దుర్వినియోగాన్ని బహిర్గతం చేయగలము.
ప్రారంభించండి:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
ఐచ్ఛిక అభ్యాస కమ్యూనిటీ: https://t.me/GyaanSetuAi
