𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: 𝗘𝘃𝗼𝗹𝘂𝗰𝗶𝗼𝗻𝗮𝗻𝗱𝗼 𝗹𝗮 𝗲𝘃𝗮𝗹𝘂𝗮𝗰𝗶𝗼́𝗻 𝗱𝗲 𝗟𝗟𝗠

Acabamos de lanzar la versión 2.0 de redteam-ai-benchmark.

La versión 1.0 utilizaba 12 preguntas fijas. Medía si un modelo rechazaba una pregunta o si podía escribir código de explotación (exploit code). Funcionaba, pero tenía fallos. Dependía de una única "respuesta de oro" (golden answer). Si un modelo daba una respuesta correcta utilizando un método diferente, fallaba. También carecía de detalle. No se podía ver por qué fallaba un modelo.

La versión 2.0 lo cambia todo. Hemos pasado de 12 preguntas a 60.

Trabajamos con POXEK AI para construir un marco de evaluación profesional. Esto ya no es solo una herramienta personal. Ahora es un estándar de la comunidad.

Qué hay de nuevo en la v2:

  • Taxonomía estructurada: Las preguntas cubren dominios como Windows tradecraft, Cloud/IAM y explotación web.
  • Niveles de dificultad: Probamos desde hechos básicos hasta tareas complejas de múltiples pasos para operadores.
  • Rúbricas atómicas: Cada pregunta tiene criterios específicos de aprobado/reprobado. Esto evita falsos negativos cuando un modelo utiliza un método alternativo válido.
  • Siete métricas principales: Ahora puedes realizar un seguimiento de las tasas de rechazo, la precisión técnica, las tasas de errores críticos, la completitud, la especificidad, las tasas de alucinación y la latencia.
  • Mecanismo de auditoría: Utilizamos una capa de "LLM-as-Judge". Solo revisa los casos disputados o ambiguos. Esto proporciona una segunda opinión sin destruir la reproducibilidad.

Por qué esto es importante para ti:

Deja de confiar en las afirmaciones de los proveedores. Utiliza este benchmark para obtener datos reales.

  • Encuentra modelos peligrosos: Un modelo puede parecer inteligente pero tener una alta tasa de errores críticos. Eso significa que produce código plausible pero incorrecto.
  • Comprende la alineación: Observa si un modelo rechaza tareas porque es seguro o porque no es capaz.
  • Obtén feedback accionable: Sabe exactamente por qué falla un modelo. ¿Le falta conocimiento del dominio o tiene dificultades con el razonamiento?

El framework tiene licencia MIT. Utilízalo en laboratorios autorizados, investigación o entornos educativos. No podemos evitar el mal uso, pero podemos hacerlo visible mediante una puntuación transparente.

Cómo empezar:

git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard

Source: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn

Optional learning community: https://t.me/GyaanSetuAi