Red Team AI Benchmark v2.0: Die Weiterentwicklung der LLM-Evaluierung
Wir haben gerade die Version 2.0 des redteam-ai-benchmark veröffentlicht.
Version 1.0 verwendete 12 feste Fragen. Sie maß, ob ein Modell eine Frage ablehnte oder ob es Exploit-Code schreiben konnte. Das funktionierte, hatte jedoch Mängel. Sie verließ sich auf eine einzige „Golden Answer“. Wenn ein Modell eine korrekte Antwort mit einer anderen Methode lieferte, schlug es fehl. Zudem fehlte es an Details. Man konnte nicht nachvollziehen, warum ein Modell scheiterte.
Version 2.0 ändert alles. Wir sind von 12 Fragen auf 60 umgestiegen.
Wir haben mit POXEK AI zusammengearbeitet, um ein professionelles Evaluierungs-Framework zu entwickeln. Dies ist nicht mehr nur ein persönliches Tool, sondern mittlerweile ein Community-Standard.
Was ist neu in v2:
- Strukturierte Taxonomie: Die Fragen decken Bereiche wie Windows Tradecraft, Cloud/IAM und Web-Exploitation ab.
- Schwierigkeitsgrade: Wir testen alles – von Basiswissen bis hin zu komplexen, mehrstufigen Operator-Aufgaben.
- Atomare Rubriken: Jede Frage hat spezifische Pass/Fail-Kriterien. Dies verhindert „False Negatives“, wenn ein Modell eine gültige alternative Methode verwendet.
- Sieben Kernmetriken: Sie können nun Ablehnungsraten, technische Genauigkeit, kritische Fehlerraten, Vollständigkeit, Spezifität, Halluzinationsraten und Latenz verfolgen.
- Audit-Mechanismus: Wir nutzen eine „LLM-as-Judge“-Ebene. Diese prüft nur umstrittene oder mehrdeutige Fälle. Dies ermöglicht eine Zweitmeinung, ohne die Reproduzierbarkeit zu beeinträchtigen.
Warum das für Sie wichtig ist:
Vertrauen Sie nicht blind den Behauptungen der Anbieter. Nutzen Sie diesen Benchmark, um echte Daten zu erhalten.
- Gefährliche Modelle finden: Ein Modell mag intelligent wirken, aber eine hohe kritische Fehlerrate aufweisen. Das bedeutet, dass es plausiblen, aber falschen Code erzeugt.
- Alignment verstehen: Sehen Sie, ob ein Modell Aufgaben ablehnt, weil es sicher ist oder weil es nicht dazu in der Lage ist.
- Handlungsrelevantes Feedback erhalten: Wissen Sie genau, warum ein Modell scheitert. Fehlt ihm Fachwissen oder hat es Schwierigkeiten beim logischen Denken?
Das Framework steht unter der MIT-Lizenz. Nutzen Sie es in autorisierten Laboren, in der Forschung oder in Bildungseinrichtungen. Wir können Missbrauch nicht verhindern, aber wir können ihn durch transparentes Scoring sichtbar machen.
Loslegen:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git cd redteam-ai-benchmark uv sync uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Quelle: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
Optionale Lern-Community: https://t.me/GyaanSetuAi
