𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: 𝗟𝗟𝗠 𝗠𝗮𝗱𝗵𝗶𝗽𝗲𝗲𝘁𝘁𝗶𝗻 𝗣𝗮𝗿𝗶𝗻𝗮𝗮𝗺𝗮𝗺
நாங்கள் redteam-ai-benchmark-ன் பதிப்பு 2.0-ஐ வெளியிட்டுள்ளோம்.
பதிப்பு 1.0 இல் 12 நிலையான கேள்விகள் பயன்படுத்தப்பட்டன. ஒரு மாடல் ஒரு கேள்வியை மறுக்கிறதா அல்லது அது exploit code-ஐ எழுத முடியுமா என்பதை இது அளவிட்டது. இது வேலை செய்தது, ஆனால் இதில் சில குறைபாடுகள் இருந்தன. இது ஒரு ஒற்றை "golden answer"-ஐ மட்டுமே நம்பியிருந்தது. ஒரு மாடல் வேறு ஒரு முறையைப் பயன்படுத்தி சரியான பதிலைக் கொடுத்தால், அது தோல்வியடைந்ததாகக் கருதப்பட்டது. மேலும் இதில் விரிவான தகவல்கள் இல்லை. ஒரு மாடல் ஏன் தோல்வியடைந்தது என்பதை உங்களால் காண முடியாது.
பதிப்பு 2.0 அனைத்தையும் மாற்றுகிறது. நாங்கள் 12 கேள்விகளிலிருந்து 60 கேள்விகளுக்கு மாறியுள்ளோம்.
ஒரு தொழில்முறை மதிப்பீட்டு கட்டமைப்பை (evaluation framework) உருவாக்க நாங்கள் POXEK AI உடன் இணைந்து பணியாற்றினோம். இது இனி வெறும் தனிப்பட்ட கருவி மட்டுமல்ல. இது இப்போது ஒரு சமூகத் தரநிலையாக (community standard) உள்ளது.
v2-இல் புதியவை என்ன:
- Structured Taxonomy: கேள்விகள் Windows tradecraft, Cloud/IAM மற்றும் Web exploitation போன்ற களங்களை உள்ளடக்கியது.
- Difficulty Levels: அடிப்படை உண்மைகள் முதல் சிக்கலான பல-படிநிலை ஆபரேட்டர் பணிகள் (multi-step operator tasks) வரை அனைத்தையும் நாங்கள் சோதிக்கிறோம்.
- Atomic Rubrics: ஒவ்வொரு கேள்விக்கும் குறிப்பிட்ட வெற்றி/தோல்வி அளவுகோல்கள் உள்ளன. ஒரு மாடல் சரியான மாற்று முறையைப் பயன்படுத்தும்போது, தவறான தோல்வி முடிவுகள் (false negatives) வருவதைத் இது தடுக்கிறது.
- Seven Core Metrics: இப்போது refusal rates, technical accuracy, critical error rates, completeness, specificity, hallucination rates மற்றும் latency ஆகியவற்றைத் கண்காணிக்கலாம்.
- Audit Mechanism: நாங்கள் "LLM-as-Judge" அடுக்கைப் பயன்படுத்துகிறோம். இது சர்ச்சைக்குரிய அல்லது தெளிவற்ற நிகழ்வுகளை மட்டுமே ஆய்வு செய்கிறது. இது மறுஉற்பத்தித்தன்மையை (reproducibility) பாதிக்காமல் ஒரு இரண்டாவது கருத்தை வழங்குகிறது.
இது உங்களுக்கு ஏன் முக்கியமானது:
விற்பனையாளர்களின் (vendor) கூற்றுகளை நம்புவதை நிறுத்துங்கள். உண்மையான தரவைப் பெற இந்த benchmark-ஐப் பயன்படுத்துங்கள்.
- ஆபத்தான மாடல்களைக் கண்டறியுங்கள்: ஒரு மாடல் புத்திசாலித்தனமாகத் தோன்றலாம், ஆனால் அதில் அதிகப்படியான critical error rate இருக்கலாம். அதாவது அது நம்பத்தகுந்த ஆனால் தவறான குறியீட்டை (code) உருவாக்குகிறது என்று அர்த்தம்.
- அலைன்மென்ட்டை (alignment) புரிந்து கொள்ளுங்கள்: ஒரு மாடல் பாதுகாப்பானது என்பதால் பணிகளை மறுக்கிறதா அல்லது அதற்குத் திறன் இல்லாததால் மறுக்கிறதா என்பதைப் பாருங்கள்.
- பயனுள்ள பின்னூட்டத்தைப் பெறுங்கள்: ஒரு மாடல் ஏன் தோல்வியடைகிறது என்பதைத் துல்லியமாகத் தெரிந்துகொள்ளுங்கள். அதற்குத் துறை சார்ந்த அறிவு (domain knowledge) இல்லையா அல்லது அது தர்க்கரீதியான சிந்தனையில் (reasoning) சிரமப்படுகிறதா?
இந்த கட்டமைப்பு MIT உரிமம் பெற்றது. அங்கீகரிக்கப்பட்ட ஆய்வகங்கள், ஆராய்ச்சி அல்லது கல்விச் சூழல்களில் இதைப் பயன்படுத்தவும். தவறான பயன்பாட்டை எங்களால் தடுக்க முடியாது, ஆனால் வெளிப்படையான மதிப்பெண் முறை மூலம் தவறான பயன்பாட்டை வெளிச்சத்திற்கு கொண்டு வர முடியும்.
தொடங்குங்கள்:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
விருப்பத்தேர்வு கற்றல் சமூகம்: https://t.me/GyaanSetuAi
