Новый бенчмарк для облачных задач

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorial22 часа назад2мин чтения

Новый бенчмарк для облачных задач

Производительность ИИ неоднородна. Модель может лидировать в бенчмарках по программированию, но провалиться в облачных задачах. Она часто выдумывает несуществующие ресурсы.

Текущие бенчмарки охватывают программирование и логическое мышление. Бенчмарка для задач управления облаком не существует.

Мы создаем такой бенчмарк.

Мы тестируем такие инструменты, как Codex и Claude Code. Наш первый тест проводится на AWS. Позже мы будем использовать шаблон, подходящий для Azure и GCP.

Our Methodology

В качестве эталона ответов мы используем Infrastructure as Code (IaC). Terraform разворачивает ресурсы, и его вывод является истиной в последней инстанции. Мы знаем точные ID ресурсов, которые должны существовать. Это исключает человеческий фактор. Любой может запустить тот же стек и получить тот же результат.

Мы тестируем две переменные:

• Размер: маленькие аккаунты, средние и большие аккаунты с тысячами зависимостей. • История: новые аккаунты с чистым IaC и старые аккаунты с запутанными тегами и ручными изменениями.

Инструмент, который работает только на маленьких и «чистых» аккаунтах, окажется бесполезным в реальных продакшн-средах.

Мы ограничиваем возможности агента. Он запускается в отдельном контейнере с правами только на чтение. Мы используем CloudTrail для отслеживания каждого действия. Мы повторяем каждый тест трижды, чтобы исключить сетевые ошибки.

Мы классифицируем каждый неверный ответ:

Найдено: агент увидел ресурс.
Пропущено: агент не смог его увидеть.
Помечено: агент сообщил о ресурсе, который на самом деле используется.
Выдумано: агент придумал ID ресурса, которого не существует.

Наша первая задача сосредоточена на поиске избыточных ресурсов (waste discovery) в AWS. Мы используем Terraform, чтобы создать непривязанные тома и неиспользуемые IP-адреса. Мы также добавляем активные ресурсы, чтобы проверить, совершит ли агент ошибки.

Поиск избыточных ресурсов — это первый тест, так как он позволяет экономить деньги и имеет четкие критерии оценки. Будущие тесты будут включать аудит безопасности и реконструкцию архитектуры.

Мы опубликуем весь наш процесс, включая необработанные логи и промпты. Мы поделимся результатами, даже если они будут плохими.

Нам нужна ваша обратная связь.

В чем слабость этого метода? Что делает тест похожим на реальный аккаунт? Какую задачу нам протестировать следующей?

Source: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1

Optional learning community: https://t.me/GyaanSetuAi

Новый бенчмарк для облачных задач

Продолжить чтение

Новый бенчмарк AA Briefcase выявляет трудности ИИ с выполнением реальных интеллектуальных задач

AWS запускает новые сервисы для решения проблем безопасности и нехватки контекста у ИИ-агентов

Становление инфраструктуры веб-данных: устранение узкого места в знаниях ИИ

Почему стандартные бенчмарки ИИ систематически недооценивают возможности агентов