Новый бенчмарк для облачных задач

Производительность ИИ неоднородна. Модель может лидировать в бенчмарках по программированию, но провалиться в облачных задачах. Она часто выдумывает несуществующие ресурсы.

Текущие бенчмарки охватывают программирование и логическое мышление. Бенчмарка для задач управления облаком не существует.

Мы создаем такой бенчмарк.

Мы тестируем такие инструменты, как Codex и Claude Code. Наш первый тест проводится на AWS. Позже мы будем использовать шаблон, подходящий для Azure и GCP.

Our Methodology

В качестве эталона ответов мы используем Infrastructure as Code (IaC). Terraform разворачивает ресурсы, и его вывод является истиной в последней инстанции. Мы знаем точные ID ресурсов, которые должны существовать. Это исключает человеческий фактор. Любой может запустить тот же стек и получить тот же результат.

Мы тестируем две переменные:

• Размер: маленькие аккаунты, средние и большие аккаунты с тысячами зависимостей. • История: новые аккаунты с чистым IaC и старые аккаунты с запутанными тегами и ручными изменениями.

Инструмент, который работает только на маленьких и «чистых» аккаунтах, окажется бесполезным в реальных продакшн-средах.

Мы ограничиваем возможности агента. Он запускается в отдельном контейнере с правами только на чтение. Мы используем CloudTrail для отслеживания каждого действия. Мы повторяем каждый тест трижды, чтобы исключить сетевые ошибки.

Мы классифицируем каждый неверный ответ:

  • Найдено: агент увидел ресурс.
  • Пропущено: агент не смог его увидеть.
  • Помечено: агент сообщил о ресурсе, который на самом деле используется.
  • Выдумано: агент придумал ID ресурса, которого не существует.

Наша первая задача сосредоточена на поиске избыточных ресурсов (waste discovery) в AWS. Мы используем Terraform, чтобы создать непривязанные тома и неиспользуемые IP-адреса. Мы также добавляем активные ресурсы, чтобы проверить, совершит ли агент ошибки.

Поиск избыточных ресурсов — это первый тест, так как он позволяет экономить деньги и имеет четкие критерии оценки. Будущие тесты будут включать аудит безопасности и реконструкцию архитектуры.

Мы опубликуем весь наш процесс, включая необработанные логи и промпты. Мы поделимся результатами, даже если они будут плохими.

Нам нужна ваша обратная связь.

В чем слабость этого метода? Что делает тест похожим на реальный аккаунт? Какую задачу нам протестировать следующей?

Source: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1

Optional learning community: https://t.me/GyaanSetuAi