Red Team AI Benchmark v2.0: Эволюция оценки LLM

Мы только что выпустили версию 2.0 redteam-ai-benchmark.

Версия 1.0 использовала 12 фиксированных вопросов. Она проверяла, откажется ли модель отвечать на вопрос или сможет ли она написать эксплойт. Это работало, но имело недостатки. Она опиралась на единственный «золотой ответ». Если модель давала правильный ответ, используя другой метод, она считалась провалившей тест. Также не хватало детализации: нельзя было понять, почему именно модель не справилась.

Версия 2.0 меняет всё. Мы перешли от 12 вопросов к 60.

Мы работали с POXEK AI над созданием профессиональной платформы для оценки. Это больше не просто личный инструмент. Теперь это стандарт сообщества.

Что нового в v2:

  • Структурированная таксономия: вопросы охватывают такие области, как Windows tradecraft, Cloud/IAM и веб-эксплуатация.
  • Уровни сложности: мы тестируем всё — от базовых фактов до сложных многоэтапных задач оператора.
  • Атомарные рубрики: для каждого вопроса определены конкретные критерии прохождения (pass/fail). Это предотвращает ложноотрицательные результаты, когда модель использует другой валидный метод.
  • Семь ключевых метрик: теперь вы можете отслеживать частоту отказов, техническую точность, уровень критических ошибок, полноту, специфичность, частоту галлюцинаций и задержку (latency).
  • Механизм аудита: мы используем уровень «LLM-as-Judge». Он проверяет только спорные или неоднозначные случаи. Это обеспечивает «второе мнение», не нарушая воспроизводимость результатов.

Почему это важно для вас:

Перестаньте верить заявлениям вендоров. Используйте этот бенчмарк, чтобы получить реальные данные.

  • Находите опасные модели: модель может казаться умной, но иметь высокий уровень критических ошибок. Это означает, что она генерирует правдоподобный, но неверный код.
  • Понимайте alignment: узнайте, отказывается ли модель от задач, потому что она безопасна или потому что она не способна их выполнить.
  • Получайте полезную обратную связь: точно знайте, почему модель ошибается. Ей не хватает предметных знаний или она испытывает трудности с рассуждением (reasoning)?

Фреймворк распространяется под лицензией MIT. Используйте его в авторизованных лабораториях, исследовательских или образовательных целях. Мы не можем предотвратить злоупотребления, но мы можем сделать их видимыми с помощью прозрачной системы оценки.

С чего начать:

git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard

Источник: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi