𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: 𝗟𝗟𝗠 ᴇᴠᴀʟᴜᴀᴛɪᴏɴ ਦਾ ਵਿਕਾਸ
ਅਸੀਂ ਹੁਣੇ redteam-ai-benchmark ਦਾ ਵਰਜ਼ਨ 2.0 ਰਿਲੀਜ਼ ਕੀਤਾ ਹੈ।
ਵਰਜ਼ਨ 1.0 ਵਿੱਚ 12 ਨਿਸ਼ਚਿਤ ਸਵਾਲ ਵਰਤੇ ਗਏ ਸਨ। ਇਸਨੇ ਇਹ ਮਾਪਿਆ ਕਿ ਕੀ ਕੋਈ ਮਾਡਲ ਕਿਸੇ ਸਵਾਲ ਨੂੰ ਰੱਦ ਕਰਦਾ ਹੈ ਜਾਂ ਕੀ ਉਹ exploit code ਲਿਖ ਸਕਦਾ ਹੈ। ਇਹ ਕੰਮ ਕਰਦਾ ਸੀ, ਪਰ ਇਸ ਵਿੱਚ ਕੁਝ ਕਮੀਆਂ ਸਨ। ਇਹ ਇੱਕ ਸਿੰਗਲ "golden answer" 'ਤੇ ਨਿਰਭਰ ਸੀ। ਜੇਕਰ ਕਿਸੇ ਮਾਡਲ ਨੇ ਕਿਸੇ ਵੱਖਰੇ ਤਰੀਕੇ ਨਾਲ ਸਹੀ ਜਵਾਬ ਦਿੱਤਾ, ਤਾਂ ਉਹ ਫੇਲ੍ਹ ਹੋ ਜਾਂਦਾ ਸੀ। ਇਸ ਵਿੱਚ ਵਿਸਤਾਰ ਦੀ ਵੀ ਕਮੀ ਸੀ। ਤੁਸੀਂ ਇਹ ਨਹੀਂ ਦੇਖ ਸਕਦੇ ਸੀ ਕਿ ਕੋਈ ਮਾਡਲ ਕਿਉਂ ਫੇਲ੍ਹ ਹੋਇਆ।
ਵਰਜ਼ਨ 2.0 ਸਭ ਕੁਝ ਬਦਲ ਦਿੰਦਾ ਹੈ। ਅਸੀਂ 12 ਸਵਾਲਾਂ ਤੋਂ ਵਧ ਕੇ 60 ਸਵਾਲ ਕਰ ਦਿੱਤੇ ਹਨ।
ਅਸੀਂ ਇੱਕ ਪੇਸ਼ੇਵਰ evaluation framework ਬਣਾਉਣ ਲਈ POXEK AI ਨਾਲ ਮਿਲ ਕੇ ਕੰਮ ਕੀਤਾ ਹੈ। ਇਹ ਹੁਣ ਸਿਰਫ਼ ਇੱਕ ਨਿੱਜੀ ਟੂਲ ਨਹੀਂ ਰਿਹਾ। ਇਹ ਹੁਣ ਇੱਕ ਕਮਿਊਨਿਟੀ ਸਟੈਂਡਰਡ ਹੈ।
v2 ਵਿੱਚ ਕੀ ਨਵਾਂ ਹੈ:
- Structured Taxonomy: ਸਵਾਲ Windows tradecraft, Cloud/IAM, ਅਤੇ Web exploitation ਵਰਗੇ ਡੋਮੇਨਾਂ ਨੂੰ ਕਵਰ ਕਰਦੇ ਹਨ।
- Difficulty Levels: ਅਸੀਂ ਬੁਨਿਆਦੀ ਤੱਥਾਂ ਤੋਂ ਲੈ ਕੇ ਗੁੰਝਲਦਾਰ multi-step operator ਕੰਮਾਂ ਤੱਕ ਸਭ ਕੁਝ ਟੈਸਟ ਕਰਦੇ ਹਾਂ।
- Atomic Rubrics: ਹਰੇਕ ਸਵਾਲ ਦੇ ਖਾਸ pass/fail ਮਾਪਦੰਡ ਹਨ। ਇਹ ਉਦੋਂ false negatives ਨੂੰ ਰੋਕਦਾ ਹੈ ਜਦੋਂ ਕੋਈ ਮਾਡਲ ਇੱਕ ਵੈਧ (valid) ਵਿਕਲਪਿਕ ਤਰੀਕਾ ਵਰਤਦਾ ਹੈ।
- Seven Core Metrics: ਹੁਣ ਤੁਸੀਂ refusal rates, technical accuracy, critical error rates, completeness, specificity, hallucination rates, ਅਤੇ latency ਨੂੰ ਟ੍ਰੈਕ ਕਰ ਸਕਦੇ ਹੋ।
- Audit Mechanism: ਅਸੀਂ "LLM-as-Judge" ਲੇਅਰ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ। ਇਹ ਸਿਰਫ਼ ਵਿਵਾਦਤ ਜਾਂ ਅਸਪਸ਼ਟ ਮਾਮਲਿਆਂ ਦੀ ਸਮੀਖਿਆ ਕਰਦਾ ਹੈ। ਇਹ reproducibility ਨੂੰ ਖਰਾਬ ਕੀਤੇ ਬਿਨਾਂ ਦੂਜੀ ਰਾਏ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਇਹ ਤੁਹਾਡੇ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ:
ਵੈਂਡਰ (vendor) ਦੇ ਦਾਅਵਿਆਂ 'ਤੇ ਭਰੋਸਾ ਕਰਨਾ ਬੰਦ ਕਰੋ। ਅਸਲ ਡੇਟਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਇਸ benchmark ਦੀ ਵਰਤੋਂ ਕਰੋ।
- ਖ਼ਤਰਨਾਕ ਮਾਡਲਾਂ ਦਾ ਪਤਾ ਲਗਾਓ: ਇੱਕ ਮਾਡਲ ਸਮਾਰਟ ਲੱਗ ਸਕਦਾ ਹੈ ਪਰ ਉਸਦੀ critical error rate ਉੱਚੀ ਹੋ ਸਕਦੀ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਹ ਪ੍ਰਮਾਣਯੋਗ (plausible) ਪਰ ਗਲਤ ਕੋਡ ਪੈਦਾ ਕਰਦਾ ਹੈ।
- Alignment ਨੂੰ ਸਮਝੋ: ਦੇਖੋ ਕਿ ਕੀ ਕੋਈ ਮਾਡਲ ਕੰਮਾਂ ਨੂੰ ਇਸ ਲਈ ਰੱਦ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਇਹ ਸੁਰੱਖਿਅਤ ਹੈ ਜਾਂ ਇਸ ਲਈ ਕਿਉਂਕਿ ਇਹ ਸਮਰੱਥ ਨਹੀਂ ਹੈ।
- Actionable feedback ਪ੍ਰਾਪਤ ਕਰੋ: ਜਾਣੋ ਕਿ ਕੋਈ ਮਾਡਲ ਬਿਲਕੁਲ ਕਿਉਂ ਫੇਲ੍ਹ ਹੁੰਦਾ ਹੈ। ਕੀ ਇਸ ਵਿੱਚ ਡੋਮੇਨ ਗਿਆਨ ਦੀ ਕਮੀ ਹੈ ਜਾਂ ਇਹ ਤਰਕ (reasoning) ਕਰਨ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰਦਾ ਹੈ?
ਇਹ framework MIT licensed ਹੈ। ਇਸਦੀ ਵਰਤੋਂ ਅਧਿਕਾਰਤ ਲੈਬਾਂ, ਖੋਜ, ਜਾਂ ਵਿਦਿਅਕ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਕਰੋ। ਅਸੀਂ ਦੁਰਵਰਤੋਂ ਨੂੰ ਨਹੀਂ ਰੋਕ ਸਕਦੇ, ਪਰ ਅਸੀਂ ਪਾਰਦਰਸ਼ੀ ਸਕੋਰਿੰਗ ਰਾਹੀਂ ਦੁਰਵਰਤੋਂ ਨੂੰ ਦਿਖਾਈ ਦੇਣਯੋਗ ਬਣਾ ਸਕਦੇ ਹਾਂ।
ਸ਼ੁਰੂਆਤ ਕਰੋ:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
Optional learning community: https://t.me/GyaanSetuAi
