Новый бенчмарк для облачных задач
Производительность ИИ неоднородна. Модель может лидировать в бенчмарках по программированию, но провалиться в облачных задачах. Она часто выдумывает несуществующие ресурсы.
Текущие бенчмарки охватывают программирование и логическое мышление. Бенчмарка для задач управления облаком не существует.
Мы создаем такой бенчмарк.
Мы тестируем такие инструменты, как Codex и Claude Code. Наш первый тест проводится на AWS. Позже мы будем использовать шаблон, подходящий для Azure и GCP.
Our Methodology
В качестве эталона ответов мы используем Infrastructure as Code (IaC). Terraform разворачивает ресурсы, и его вывод является истиной в последней инстанции. Мы знаем точные ID ресурсов, которые должны существовать. Это исключает человеческий фактор. Любой может запустить тот же стек и получить тот же результат.
Мы тестируем две переменные:
• Размер: маленькие аккаунты, средние и большие аккаунты с тысячами зависимостей. • История: новые аккаунты с чистым IaC и старые аккаунты с запутанными тегами и ручными изменениями.
Инструмент, который работает только на маленьких и «чистых» аккаунтах, окажется бесполезным в реальных продакшн-средах.
Мы ограничиваем возможности агента. Он запускается в отдельном контейнере с правами только на чтение. Мы используем CloudTrail для отслеживания каждого действия. Мы повторяем каждый тест трижды, чтобы исключить сетевые ошибки.
Мы классифицируем каждый неверный ответ:
- Найдено: агент увидел ресурс.
- Пропущено: агент не смог его увидеть.
- Помечено: агент сообщил о ресурсе, который на самом деле используется.
- Выдумано: агент придумал ID ресурса, которого не существует.
Наша первая задача сосредоточена на поиске избыточных ресурсов (waste discovery) в AWS. Мы используем Terraform, чтобы создать непривязанные тома и неиспользуемые IP-адреса. Мы также добавляем активные ресурсы, чтобы проверить, совершит ли агент ошибки.
Поиск избыточных ресурсов — это первый тест, так как он позволяет экономить деньги и имеет четкие критерии оценки. Будущие тесты будут включать аудит безопасности и реконструкцию архитектуры.
Мы опубликуем весь наш процесс, включая необработанные логи и промпты. Мы поделимся результатами, даже если они будут плохими.
Нам нужна ваша обратная связь.
В чем слабость этого метода? Что делает тест похожим на реальный аккаунт? Какую задачу нам протестировать следующей?
Source: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1
Optional learning community: https://t.me/GyaanSetuAi
