Почему стандартные бенчмарки ИИ систематически недооценивают возможности агентов

Современные методы оценки ИИ не позволяют раскрыть истинный потенциал передовых моделей, часто принимая нехватку вычислительных ресурсов за недостаток интеллекта. Британский институт безопасности ИИ (AISI) показал, что производительность ИИ-агентов — это не фиксированный показатель, а кривая масштабирования, которая резко возрастает при увеличении вычислительных затрат во время тестирования (test-time compute).

Кривая «вычисления — возможности»

Основной вывод исследования AISI заключается в том, что показатель успеха ИИ-агента неразрывно связан с его «вычислительными затратами во время тестирования» (test-time compute) — объемом вычислительной мощности и количеством токенов, которые агенту разрешено использовать при выполнении задачи. Когда исследователи устанавливают фиксированные ограничения бюджета при оценке, они измеряют минимальные возможности модели, а не её максимальный потенциал.

Это явление наблюдается в нескольких критически важных областях. В задачах по программной инженерии с использованием таких бенчмарков, как TerminalBench 2.0 и SWE-Bench Pro, показатели успеха выросли примерно на 25%, когда бюджет токенов был увеличен с одного миллиона до десяти миллионов. Аналогичным образом, в математических и академических задачах в «Humanity's Last Exam» наблюдался рост на 22%, когда бюджет достиг пяти миллионов токенов.

Закон степенной зависимости времени выполнения задач человеком и ИИ

Исследование установило прямую корреляцию между временем, необходимым эксперту-человеку для выполнения задачи, и потреблением токенов ИИ-агентом. Эта зависимость подчиняется степенному закону: задача, требующая от человека одной минуты, обходится агенту в тысячи токенов, в то время как часовая задача стоит миллионы.

Это создает огромную слепую зону в современных тестах. Например, задача по кибербезопасности «The Last Ones» от AISI требует примерно 20 часов экспертной работы человека. Ни одна модель, протестированная институтом, не смогла решить эту задачу, затратив менее 30 миллионов токенов. Используя стандартные методы оценки с низким бюджетом, исследователи фактически исключают самые сложные и критически важные задачи из процесса измерения.

Ускорение прогресса и три оси улучшения

AISI отмечает, что «горизонт планирования» (time horizon) передовых моделей — сложность задач, с которыми они могут справиться, — расширяется гораздо быстрее, чем считалось ранее. Хотя ранние оценки предполагали, что при фиксированном бюджете в 2,5 миллиона токенов горизонт задач по кибербезопасности удваивается каждые 4,7 месяца, при более высоких бюджетах этот темп значительно ускоряется. При бюджете в 50 миллионов токенов частота удвоения возрастает до одного раза в 40–50 дней.

Новые модели (такие как протестированные серии GPT и Claude) демонстрируют улучшение по трем направлениям:

  • Reach (Охват): Способность справляться с задачами возрастающей сложности.
  • Reliability (Надежность): Способность решать одну и ту же задачу более стабильно.
  • Efficiency (Эффективность): Способность решать задачи, используя меньше токенов.

Последствия для безопасности и внедрения ИИ

Это исследование меняет парадигму оценки ИИ с «фиксированных баллов» на «кривые с учетом вычислительных ресурсов». Для разработчиков и основателей это означает, что полезность модели зависит не только от её обучения, но и от того, какой объем вычислительных ресурсов для инференса выделяется при развертывании.

По мере того как стоимость одного токена продолжает снижаться, возможности, которые ранее казались экономически нецелесообразными, станут стандартом. Для безопасности ИИ это означает, что риски, связанные с автономными агентами (например, сложные кибератаки), могут быть значительно недооценены, если регуляторы и компании будут полагаться на традиционные бенчмарки с низким бюджетом.

Основные выводы

  • Бенчмарки вводят в заблуждение: Фиксированные бюджеты токенов фиксируют минимальную производительность модели, систематически недооценивая потолок возможностей ИИ-агентов.
  • Вычисления масштабируют возможности: Показатели успеха в программной инженерии и математике значительно возрастают по мере увеличения бюджета вычислительных затрат во время тестирования.
  • Темп «удвоения» ускоряется: При более высоких вычислительных бюджетах скорость, с которой передовые модели осваивают сложные задачи, гораздо выше, чем предполагалось ранее.