Red Team AI Benchmark v2.0: Evolução na Avaliação de LLMs
Acabamos de lançar a versão 2.0 do redteam-ai-benchmark.
A Versão 1.0 utilizava 12 perguntas fixas. Ela media se um modelo recusaria uma pergunta ou se conseguiria escrever código de exploração (exploit code). Funcionava, mas tinha falhas. Dependia de uma única "resposta de ouro" (golden answer). Se um modelo desse uma resposta correta usando um método diferente, ele falhava. Também faltava detalhamento. Não era possível ver por que um modelo falhava.
A Versão 2.0 muda tudo. Passamos de 12 perguntas para 60.
Trabalhamos com a POXEK AI para construir um framework de avaliação profissional. Isso não é mais apenas uma ferramenta pessoal. Agora é um padrão da comunidade.
O que há de novo na v2:
- Taxonomia Estruturada: As perguntas abrangem domínios como Windows tradecraft, Cloud/IAM e exploração web.
- Níveis de Dificuldade: Testamos desde fatos básicos até tarefas complexas de operadores em múltiplas etapas.
- Rubricas Atômicas: Cada pergunta possui critérios específicos de aprovação/reprovação. Isso evita falsos negativos quando um modelo utiliza um método alternativo válido.
- Sete Métricas Principais: Agora você pode acompanhar taxas de recusa, precisão técnica, taxas de erro crítico, completude, especificidade, taxas de alucinação e latência.
- Mecanismo de Auditoria: Utilizamos uma camada de "LLM-as-Judge". Ela revisa apenas casos contestados ou ambíguos. Isso fornece uma segunda opinião sem destruir a reprodutibilidade.
Por que isso é importante para você:
Pare de confiar nas alegações dos fornecedores. Use este benchmark para obter dados reais.
- Encontre modelos perigosos: Um modelo pode parecer inteligente, mas ter uma alta taxa de erro crítico. Isso significa que ele produz código plausível, porém incorreto.
- Entenda o alinhamento: Veja se um modelo recusa tarefas porque é seguro ou porque não é capaz.
- Obtenha feedback acionável: Saiba exatamente por que um modelo falha. Ele carece de conhecimento de domínio ou tem dificuldade com o raciocínio?
O framework possui licença MIT. Use-o em laboratórios autorizados, pesquisas ou ambientes educacionais. Não podemos impedir o uso indevido, mas podemos tornar o uso indevido visível por meio de uma pontuação transparente.
Comece agora:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Fonte: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
