Red Team AI Benchmark v2.0: Evolving LLM Evaluation

Translated for your language. Read the original.

AI-assisted draft.

Red Team AI Benchmark v2.0: Evolving LLM Evaluation

𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: 𝗟𝗟𝗠 ᴇᴠᴀʟᴜᴀᴛɪᴏɴ ਦਾ ਵਿਕਾਸ

ਅਸੀਂ ਹੁਣੇ redteam-ai-benchmark ਦਾ ਵਰਜ਼ਨ 2.0 ਰਿਲੀਜ਼ ਕੀਤਾ ਹੈ।

ਵਰਜ਼ਨ 1.0 ਵਿੱਚ 12 ਨਿਸ਼ਚਿਤ ਸਵਾਲ ਵਰਤੇ ਗਏ ਸਨ। ਇਸਨੇ ਇਹ ਮਾਪਿਆ ਕਿ ਕੀ ਕੋਈ ਮਾਡਲ ਕਿਸੇ ਸਵਾਲ ਨੂੰ ਰੱਦ ਕਰਦਾ ਹੈ ਜਾਂ ਕੀ ਉਹ exploit code ਲਿਖ ਸਕਦਾ ਹੈ। ਇਹ ਕੰਮ ਕਰਦਾ ਸੀ, ਪਰ ਇਸ ਵਿੱਚ ਕੁਝ ਕਮੀਆਂ ਸਨ। ਇਹ ਇੱਕ ਸਿੰਗਲ "golden answer" 'ਤੇ ਨਿਰਭਰ ਸੀ। ਜੇਕਰ ਕਿਸੇ ਮਾਡਲ ਨੇ ਕਿਸੇ ਵੱਖਰੇ ਤਰੀਕੇ ਨਾਲ ਸਹੀ ਜਵਾਬ ਦਿੱਤਾ, ਤਾਂ ਉਹ ਫੇਲ੍ਹ ਹੋ ਜਾਂਦਾ ਸੀ। ਇਸ ਵਿੱਚ ਵਿਸਤਾਰ ਦੀ ਵੀ ਕਮੀ ਸੀ। ਤੁਸੀਂ ਇਹ ਨਹੀਂ ਦੇਖ ਸਕਦੇ ਸੀ ਕਿ ਕੋਈ ਮਾਡਲ ਕਿਉਂ ਫੇਲ੍ਹ ਹੋਇਆ।

ਵਰਜ਼ਨ 2.0 ਸਭ ਕੁਝ ਬਦਲ ਦਿੰਦਾ ਹੈ। ਅਸੀਂ 12 ਸਵਾਲਾਂ ਤੋਂ ਵਧ ਕੇ 60 ਸਵਾਲ ਕਰ ਦਿੱਤੇ ਹਨ।

ਅਸੀਂ ਇੱਕ ਪੇਸ਼ੇਵਰ evaluation framework ਬਣਾਉਣ ਲਈ POXEK AI ਨਾਲ ਮਿਲ ਕੇ ਕੰਮ ਕੀਤਾ ਹੈ। ਇਹ ਹੁਣ ਸਿਰਫ਼ ਇੱਕ ਨਿੱਜੀ ਟੂਲ ਨਹੀਂ ਰਿਹਾ। ਇਹ ਹੁਣ ਇੱਕ ਕਮਿਊਨਿਟੀ ਸਟੈਂਡਰਡ ਹੈ।

v2 ਵਿੱਚ ਕੀ ਨਵਾਂ ਹੈ:

Structured Taxonomy: ਸਵਾਲ Windows tradecraft, Cloud/IAM, ਅਤੇ Web exploitation ਵਰਗੇ ਡੋਮੇਨਾਂ ਨੂੰ ਕਵਰ ਕਰਦੇ ਹਨ।
Difficulty Levels: ਅਸੀਂ ਬੁਨਿਆਦੀ ਤੱਥਾਂ ਤੋਂ ਲੈ ਕੇ ਗੁੰਝਲਦਾਰ multi-step operator ਕੰਮਾਂ ਤੱਕ ਸਭ ਕੁਝ ਟੈਸਟ ਕਰਦੇ ਹਾਂ।
Atomic Rubrics: ਹਰੇਕ ਸਵਾਲ ਦੇ ਖਾਸ pass/fail ਮਾਪਦੰਡ ਹਨ। ਇਹ ਉਦੋਂ false negatives ਨੂੰ ਰੋਕਦਾ ਹੈ ਜਦੋਂ ਕੋਈ ਮਾਡਲ ਇੱਕ ਵੈਧ (valid) ਵਿਕਲਪਿਕ ਤਰੀਕਾ ਵਰਤਦਾ ਹੈ।
Seven Core Metrics: ਹੁਣ ਤੁਸੀਂ refusal rates, technical accuracy, critical error rates, completeness, specificity, hallucination rates, ਅਤੇ latency ਨੂੰ ਟ੍ਰੈਕ ਕਰ ਸਕਦੇ ਹੋ।
Audit Mechanism: ਅਸੀਂ "LLM-as-Judge" ਲੇਅਰ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ। ਇਹ ਸਿਰਫ਼ ਵਿਵਾਦਤ ਜਾਂ ਅਸਪਸ਼ਟ ਮਾਮਲਿਆਂ ਦੀ ਸਮੀਖਿਆ ਕਰਦਾ ਹੈ। ਇਹ reproducibility ਨੂੰ ਖਰਾਬ ਕੀਤੇ ਬਿਨਾਂ ਦੂਜੀ ਰਾਏ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਇਹ ਤੁਹਾਡੇ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ:

ਵੈਂਡਰ (vendor) ਦੇ ਦਾਅਵਿਆਂ 'ਤੇ ਭਰੋਸਾ ਕਰਨਾ ਬੰਦ ਕਰੋ। ਅਸਲ ਡੇਟਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਇਸ benchmark ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਖ਼ਤਰਨਾਕ ਮਾਡਲਾਂ ਦਾ ਪਤਾ ਲਗਾਓ: ਇੱਕ ਮਾਡਲ ਸਮਾਰਟ ਲੱਗ ਸਕਦਾ ਹੈ ਪਰ ਉਸਦੀ critical error rate ਉੱਚੀ ਹੋ ਸਕਦੀ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਹ ਪ੍ਰਮਾਣਯੋਗ (plausible) ਪਰ ਗਲਤ ਕੋਡ ਪੈਦਾ ਕਰਦਾ ਹੈ।
Alignment ਨੂੰ ਸਮਝੋ: ਦੇਖੋ ਕਿ ਕੀ ਕੋਈ ਮਾਡਲ ਕੰਮਾਂ ਨੂੰ ਇਸ ਲਈ ਰੱਦ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਇਹ ਸੁਰੱਖਿਅਤ ਹੈ ਜਾਂ ਇਸ ਲਈ ਕਿਉਂਕਿ ਇਹ ਸਮਰੱਥ ਨਹੀਂ ਹੈ।
Actionable feedback ਪ੍ਰਾਪਤ ਕਰੋ: ਜਾਣੋ ਕਿ ਕੋਈ ਮਾਡਲ ਬਿਲਕੁਲ ਕਿਉਂ ਫੇਲ੍ਹ ਹੁੰਦਾ ਹੈ। ਕੀ ਇਸ ਵਿੱਚ ਡੋਮੇਨ ਗਿਆਨ ਦੀ ਕਮੀ ਹੈ ਜਾਂ ਇਹ ਤਰਕ (reasoning) ਕਰਨ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰਦਾ ਹੈ?

ਇਹ framework MIT licensed ਹੈ। ਇਸਦੀ ਵਰਤੋਂ ਅਧਿਕਾਰਤ ਲੈਬਾਂ, ਖੋਜ, ਜਾਂ ਵਿਦਿਅਕ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਕਰੋ। ਅਸੀਂ ਦੁਰਵਰਤੋਂ ਨੂੰ ਨਹੀਂ ਰੋਕ ਸਕਦੇ, ਪਰ ਅਸੀਂ ਪਾਰਦਰਸ਼ੀ ਸਕੋਰਿੰਗ ਰਾਹੀਂ ਦੁਰਵਰਤੋਂ ਨੂੰ ਦਿਖਾਈ ਦੇਣਯੋਗ ਬਣਾ ਸਕਦੇ ਹਾਂ।

ਸ਼ੁਰੂਆਤ ਕਰੋ:

git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard

Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn

Optional learning community: https://t.me/GyaanSetuAi

Red Team AI Benchmark v2.0: Evolving LLM Evaluation

Continue reading

AI Red Teaming: Securing Large Language Models Against Adversarial Risks

ਲੌਂਚ ਤੋਂ ਪਹਿਲਾਂ ਦੀਆਂ AI ਸਿਮੂਲੇਸ਼ਨਾਂ ਨਵਾਂ ਸੁਰੱਖਿਆ ਚੈੱਕ ਹਨ

𝗚𝗟𝗠 𝟱.𝟮 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗟𝗲𝗮𝗱𝗶𝗻𝗴 𝗢𝗽𝗲𝗻 𝗪𝗲𝗶𝗴𝗵𝘁𝘀 𝗠𝗼𝗱𝗲𝗹

𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗔𝗜 𝗥𝗲𝗱 𝗧𝗲𝗮𝗺𝗶𝗻𝗴: 𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀 𝗟𝗶𝗸𝗲 𝗮𝗻 𝗔𝘁𝘁𝗮𝗰𝗸𝗲𝗿