Red Team AI Benchmark v2.0: Evolving LLM Evaluation

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 மணிநேரம் முன்2min read

Red Team AI Benchmark v2.0: Evolving LLM Evaluation

𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: 𝗟𝗟𝗠 𝗠𝗮𝗱𝗵𝗶𝗽𝗲𝗲𝘁𝘁𝗶𝗻 𝗣𝗮𝗿𝗶𝗻𝗮𝗮𝗺𝗮𝗺

நாங்கள் redteam-ai-benchmark-ன் பதிப்பு 2.0-ஐ வெளியிட்டுள்ளோம்.

பதிப்பு 1.0 இல் 12 நிலையான கேள்விகள் பயன்படுத்தப்பட்டன. ஒரு மாடல் ஒரு கேள்வியை மறுக்கிறதா அல்லது அது exploit code-ஐ எழுத முடியுமா என்பதை இது அளவிட்டது. இது வேலை செய்தது, ஆனால் இதில் சில குறைபாடுகள் இருந்தன. இது ஒரு ஒற்றை "golden answer"-ஐ மட்டுமே நம்பியிருந்தது. ஒரு மாடல் வேறு ஒரு முறையைப் பயன்படுத்தி சரியான பதிலைக் கொடுத்தால், அது தோல்வியடைந்ததாகக் கருதப்பட்டது. மேலும் இதில் விரிவான தகவல்கள் இல்லை. ஒரு மாடல் ஏன் தோல்வியடைந்தது என்பதை உங்களால் காண முடியாது.

பதிப்பு 2.0 அனைத்தையும் மாற்றுகிறது. நாங்கள் 12 கேள்விகளிலிருந்து 60 கேள்விகளுக்கு மாறியுள்ளோம்.

ஒரு தொழில்முறை மதிப்பீட்டு கட்டமைப்பை (evaluation framework) உருவாக்க நாங்கள் POXEK AI உடன் இணைந்து பணியாற்றினோம். இது இனி வெறும் தனிப்பட்ட கருவி மட்டுமல்ல. இது இப்போது ஒரு சமூகத் தரநிலையாக (community standard) உள்ளது.

v2-இல் புதியவை என்ன:

Structured Taxonomy: கேள்விகள் Windows tradecraft, Cloud/IAM மற்றும் Web exploitation போன்ற களங்களை உள்ளடக்கியது.
Difficulty Levels: அடிப்படை உண்மைகள் முதல் சிக்கலான பல-படிநிலை ஆபரேட்டர் பணிகள் (multi-step operator tasks) வரை அனைத்தையும் நாங்கள் சோதிக்கிறோம்.
Atomic Rubrics: ஒவ்வொரு கேள்விக்கும் குறிப்பிட்ட வெற்றி/தோல்வி அளவுகோல்கள் உள்ளன. ஒரு மாடல் சரியான மாற்று முறையைப் பயன்படுத்தும்போது, தவறான தோல்வி முடிவுகள் (false negatives) வருவதைத் இது தடுக்கிறது.
Seven Core Metrics: இப்போது refusal rates, technical accuracy, critical error rates, completeness, specificity, hallucination rates மற்றும் latency ஆகியவற்றைத் கண்காணிக்கலாம்.
Audit Mechanism: நாங்கள் "LLM-as-Judge" அடுக்கைப் பயன்படுத்துகிறோம். இது சர்ச்சைக்குரிய அல்லது தெளிவற்ற நிகழ்வுகளை மட்டுமே ஆய்வு செய்கிறது. இது மறுஉற்பத்தித்தன்மையை (reproducibility) பாதிக்காமல் ஒரு இரண்டாவது கருத்தை வழங்குகிறது.

இது உங்களுக்கு ஏன் முக்கியமானது:

விற்பனையாளர்களின் (vendor) கூற்றுகளை நம்புவதை நிறுத்துங்கள். உண்மையான தரவைப் பெற இந்த benchmark-ஐப் பயன்படுத்துங்கள்.

ஆபத்தான மாடல்களைக் கண்டறியுங்கள்: ஒரு மாடல் புத்திசாலித்தனமாகத் தோன்றலாம், ஆனால் அதில் அதிகப்படியான critical error rate இருக்கலாம். அதாவது அது நம்பத்தகுந்த ஆனால் தவறான குறியீட்டை (code) உருவாக்குகிறது என்று அர்த்தம்.
அலைன்மென்ட்டை (alignment) புரிந்து கொள்ளுங்கள்: ஒரு மாடல் பாதுகாப்பானது என்பதால் பணிகளை மறுக்கிறதா அல்லது அதற்குத் திறன் இல்லாததால் மறுக்கிறதா என்பதைப் பாருங்கள்.
பயனுள்ள பின்னூட்டத்தைப் பெறுங்கள்: ஒரு மாடல் ஏன் தோல்வியடைகிறது என்பதைத் துல்லியமாகத் தெரிந்துகொள்ளுங்கள். அதற்குத் துறை சார்ந்த அறிவு (domain knowledge) இல்லையா அல்லது அது தர்க்கரீதியான சிந்தனையில் (reasoning) சிரமப்படுகிறதா?

இந்த கட்டமைப்பு MIT உரிமம் பெற்றது. அங்கீகரிக்கப்பட்ட ஆய்வகங்கள், ஆராய்ச்சி அல்லது கல்விச் சூழல்களில் இதைப் பயன்படுத்தவும். தவறான பயன்பாட்டை எங்களால் தடுக்க முடியாது, ஆனால் வெளிப்படையான மதிப்பெண் முறை மூலம் தவறான பயன்பாட்டை வெளிச்சத்திற்கு கொண்டு வர முடியும்.

தொடங்குங்கள்:

git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard

Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn

விருப்பத்தேர்வு கற்றல் சமூகம்: https://t.me/GyaanSetuAi

Red Team AI Benchmark v2.0: Evolving LLM Evaluation

Continue reading

AI ரெட் டீமிங்: எதிரித்தனமான அபாயங்களிலிருந்து பெரிய மொழி மாதிரிகளைப் பாதுகாத்தல்

அறிமுகத்திற்கு முந்தைய AI உருவகப்படுத்துதல்கள் புதிய பாதுகாப்புச் சரிபார்ப்பாகும்

GLM 5.2 புதிய முன்னணி ஓபன் வெயிட்ஸ் மாடல்

𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗔𝗜 𝗥𝗲𝗱 𝗧𝗲𝗮𝗺𝗶𝗻𝗴: 𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀 𝗟𝗶𝗸𝗲 𝗮𝗻 𝗔𝘁𝘁𝗮𝗰𝗸𝗲𝗿