𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: 𝗘𝘃𝗼𝗹𝘂𝘁𝗶𝗲 𝗼𝗳 𝗟𝗟𝗠-𝗲𝘃𝗮𝗹𝘂𝗮𝘁𝗶𝗲
We hebben zojuist versie 2.0 van de redteam-ai-benchmark uitgebracht.
Versie 1.0 maakte gebruik van 12 vaste vragen. Het mat of een model een vraag zou weigeren of of het exploitcode kon schrijven. Het werkte, maar had gebreken. Het vertrouwde op één enkel "gouden antwoord". Als een model een correct antwoord gaf met een andere methode, werd het als een fout beschouwd. Het miste ook detail. Je kon niet zien waarom een model faalde.
Versie 2.0 verandert alles. We zijn overgestapt van 12 naar 60 vragen.
We hebben samengewerkt met POXEK AI om een professioneel evaluatiekader te bouwen. Dit is niet langer alleen een persoonlijke tool. Het is nu een standaard binnen de community.
Wat is er nieuw in v2:
- Gestructureerde taxonomie: Vragen dekken domeinen zoals Windows tradecraft, Cloud/IAM en webexploitatie.
- Moeilijkheidsgraden: We testen alles, van basisfeiten tot complexe taken voor operators met meerdere stappen.
- Atomische rubrieken: Elke vraag heeft specifieke pass/fail-criteria. Dit voorkomt fout-negatieven wanneer een model een geldige alternatieve methode gebruikt.
- Zeven kernmetrieken: Je kunt nu weigeringspercentages, technische nauwkeurigheid, kritieke foutpercentages, volledigheid, specificiteit, hallucinatiepercentages en latentie bijhouden.
- Auditmechanisme: We gebruiken een "LLM-as-Judge"-laag. Deze beoordeelt alleen omstreden of ambigue gevallen. Dit biedt een tweede mening zonder de reproduceerbaarheid te schaden.
Waarom dit belangrijk is voor jou:
Stop met het blind vertrouwen op claims van leveranciers. Gebruik deze benchmark om echte data te verkrijgen.
- Vind gevaarlijke modellen: Een model kan slim lijken, maar een hoog kritiek foutpercentage hebben. Dat betekent dat het plausibele maar onjuiste code genereert.
- Begrijp alignment: Zie of een model taken weigert omdat het veilig is of omdat het niet in staat is de taak uit te voeren.
- Krijg bruikbare feedback: Weet precies waarom een model faalt. Ontbreekt de domeinkennis of heeft het moeite met redeneren?
Het framework heeft een MIT-licentie. Gebruik het in geautoriseerde labs, onderzoek of educatieve omgevingen. We kunnen misbruik niet voorkomen, maar we kunnen misbruik wel zichtbaar maken door middel van transparante scoring.
Aan de slag:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
Optional learning community: https://t.me/GyaanSetuAi
