𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹𝘂𝗮𝘁𝗶𝗼𝗻-এর বিবর্তন
আমরা মাত্রই redteam-ai-benchmark-এর ২.০ ভার্সন প্রকাশ করেছি।
ভার্সন ১.০-তে ১২টি নির্দিষ্ট প্রশ্ন ব্যবহার করা হয়েছিল। এটি পরিমাপ করত যে একটি মডেল কোনো প্রশ্ন প্রত্যাখ্যান করবে কি না অথবা এটি এক্সপ্লয়েট কোড (exploit code) লিখতে পারে কি না। এটি কাজ করলেও এতে কিছু ত্রুটি ছিল। এটি একটি মাত্র "golden answer"-এর ওপর নির্ভর করত। যদি কোনো মডেল ভিন্ন কোনো পদ্ধতিতে সঠিক উত্তর দিত, তবে সেটি ব্যর্থ হিসেবে গণ্য হতো। এতে বিস্তারিত তথ্যেরও অভাব ছিল। একটি মডেল কেন ব্যর্থ হলো তা আপনি দেখতে পেতেন না।
ভার্সন ২.০ সবকিছু বদলে দিচ্ছে। আমরা ১২টি প্রশ্ন থেকে ৬০টি প্রশ্নে উন্নীত করেছি।
একটি পেশাদার ইভ্যালুয়েশন ফ্রেমওয়ার্ক (evaluation framework) তৈরি করতে আমরা POXEK AI-এর সাথে কাজ করেছি। এটি এখন আর কেবল একটি ব্যক্তিগত টুল নয়; এটি এখন একটি কমিউনিটি স্ট্যান্ডার্ড।
v2-তে নতুন কী আছে:
- Structured Taxonomy: প্রশ্নগুলো Windows tradecraft, Cloud/IAM এবং Web exploitation-এর মতো ডোমেইনগুলো কভার করে।
- Difficulty Levels: আমরা সাধারণ তথ্য থেকে শুরু করে জটিল মাল্টি-স্টেপ অপারেটর টাস্ক পর্যন্ত সবকিছু পরীক্ষা করি।
- Atomic Rubrics: প্রতিটি প্রশ্নের নির্দিষ্ট pass/fail ক্রাইটেরিয়া রয়েছে। এটি মডেল যখন কোনো বৈধ বিকল্প পদ্ধতি ব্যবহার করে, তখন ভুলভাবে 'false negative' হিসেবে চিহ্নিত হওয়া রোধ করে।
- Seven Core Metrics: আপনি এখন refusal rates, technical accuracy, critical error rates, completeness, specificity, hallucination rates এবং latency ট্র্যাক করতে পারবেন।
- Audit Mechanism: আমরা একটি "LLM-as-Judge" লেয়ার ব্যবহার করি। এটি কেবল বিতর্কিত বা অস্পষ্ট ক্ষেত্রগুলো পর্যালোচনা করে। এটি রিব্রোডিউসিবিলিটি (reproducibility) নষ্ট না করেই একটি দ্বিতীয় মতামত প্রদান করে।
এটি আপনার জন্য কেন গুরুত্বপূর্ণ:
ভেন্ডরদের দাবি বিশ্বাস করা বন্ধ করুন। প্রকৃত ডেটা পেতে এই বেঞ্চমার্কটি ব্যবহার করুন।
- বিপজ্জনক মডেল খুঁজে বের করুন: একটি মডেল দেখতে বুদ্ধিমান মনে হতে পারে কিন্তু এর critical error rate অনেক বেশি হতে পারে। এর মানে হলো এটি বিশ্বাসযোগ্য কিন্তু ভুল কোড তৈরি করে।
- Alignment বুঝুন: একটি মডেল কোনো কাজ প্রত্যাখ্যান করছে কি না তা দেখুন—এটি নিরাপত্তার কারণে নাকি সক্ষমতার অভাবে করছে।
- কার্যকর ফিডব্যাক পান: একটি মডেল কেন ব্যর্থ হচ্ছে তা সুনির্দিষ্টভাবে জানুন। এর কি ডোমেইন নলেজের অভাব রয়েছে নাকি এটি রিজনিং (reasoning)-এ হিমশিম খাচ্ছে?
ফ্রেমওয়ার্কটি MIT লাইসেন্সপ্রাপ্ত। এটি অনুমোদিত ল্যাব, গবেষণা বা শিক্ষামূলক ক্ষেত্রে ব্যবহার করুন। আমরা অপব্যবহার রোধ করতে পারি না, তবে স্বচ্ছ স্কোরিংয়ের মাধ্যমে অপব্যবহারকে দৃশ্যমান করতে পারি।
শুরু করুন:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
Optional learning community: https://t.me/GyaanSetuAi
