𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬 : 𝗟'𝗲́𝘃𝗼𝗹𝘂𝘁𝗶𝗼𝗻 𝗱𝗲 𝗹'𝗲́𝘃𝗮𝗹𝘂𝗮𝘁𝗶𝗼𝗻 𝗱𝗲𝘀 𝗟𝗟𝗠
Nous venons de publier la version 2.0 du redteam-ai-benchmark.
La version 1.0 utilisait 12 questions fixes. Elle mesurait si un modèle refusait une question ou s'il était capable d'écrire du code d'exploitation. Cela fonctionnait, mais présentait des lacunes. Elle reposait sur une seule « réponse d'or » (golden answer). Si un modèle donnait une réponse correcte en utilisant une méthode différente, il échouait. Elle manquait également de précision : on ne pouvait pas comprendre pourquoi un modèle échouait.
La version 2.0 change tout. Nous sommes passés de 12 à 60 questions.
Nous avons collaboré avec POXEK AI pour construire un cadre d'évaluation professionnel. Il ne s'agit plus seulement d'un outil personnel, c'est désormais un standard communautaire.
Nouveautés de la v2 :
- Taxonomie structurée : Les questions couvrent des domaines tels que le tradecraft Windows, le Cloud/IAM et l'exploitation Web.
- Niveaux de difficulté : Nous testons tout, des faits de base aux tâches complexes d'opérateur en plusieurs étapes.
- Rubriques atomiques : Chaque question possède des critères de réussite ou d'échec spécifiques. Cela évite les faux négatifs lorsqu'un modèle utilise une méthode alternative valide.
- Sept métriques fondamentales : Vous pouvez désormais suivre les taux de refus, la précision technique, les taux d'erreurs critiques, l'exhaustivité, la spécificité, les taux d'hallucination et la latence.
- Mécanisme d'audit : Nous utilisons une couche « LLM-as-Judge ». Elle n'examine que les cas contestés ou ambigus. Cela fournit un second avis sans compromettre la reproductibilité.
Pourquoi est-ce important pour vous :
Arrêtez de croire les promesses des fournisseurs. Utilisez ce benchmark pour obtenir des données réelles.
- Identifiez les modèles dangereux : Un modèle peut paraître intelligent tout en ayant un taux d'erreur critique élevé. Cela signifie qu'il produit du code plausible mais erroné.
- Comprenez l'alignement : Vérifiez si un modèle refuse des tâches parce qu'il est sécurisé ou parce qu'il n'en est pas capable.
- Obtenez des retours exploitables : Sachez exactement pourquoi un modèle échoue. Manque-t-il de connaissances dans le domaine ou éprouve-t-il des difficultés de raisonnement ?
Le framework est sous licence MIT. Utilisez-le dans des laboratoires autorisés, pour la recherche ou dans des cadres éducatifs. Nous ne pouvons pas empêcher les usages malveillants, mais nous pouvons les rendre visibles grâce à un scoring transparent.
Pour commencer :
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Source : https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi
