Чому стандартні бенчмарки ШІ систематично недооцінюють можливості агентів
Сучасні методи оцінювання ШІ не здатні розкрити справжній потенціал передових моделей, часто помилково приймаючи брак обчислювального бюджету за брак інтелекту. Інститут безпеки ШІ (AISI) Великої Британії виявив, що продуктивність ШІ-агентів — це не фіксований показник, а крива масштабування, яка різко зростає зі збільшенням обчислювальних ресурсів під час тестування (test-time compute).
Крива «обчислення — можливості»
Головним висновком дослідження AISI є те, що рівень успішності ШІ-агента нерозривно пов'язаний з його «test-time compute» — обсягом обчислювальної потужності та токенів, які агент може використовувати під час виконання завдання. Коли дослідники встановлюють фіксовані обмеження бюджету під час оцінювання, вони вимірюють мінімальні можливості моделі, а не її максимальний потенціал.
Це явище спостерігається в багатьох критично важливих сферах. У завданнях із програмної інженерії з використанням таких бенчмарків, як TerminalBench 2.0 та SWE-Bench Pro, показники успішності зросли приблизно на 25%, коли бюджет токенів було збільшено з одного мільйона до десяти мільйонів. Подібним чином, у математичних та академічних завданнях у «Humanity's Last Exam» спостерігалося зростання на 22%, коли бюджет досяг п'яти мільйонів токенів.
Степеньовий закон співвідношення часу виконання завдань людиною та ШІ
Дослідження встановило пряму кореляцію між часом, необхідним експерту-людині для виконання завдання, та споживанням токенів ШІ-агентом. Цей зв'язок відповідає степеньовому закону: завдання, яке займає у людини одну хвилину, коштує агенту тисячі токенів, тоді як завдання тривалістю в одну годину коштує мільйони.
Це створює величезну «сліпу зону» в сучасних тестах. Наприклад, завдання AISI з кібербезпеки «The Last Ones» потребує приблизно 20 годин експертних знань людини. Жодна модель, протестована інститутом, не змогла вирішити це завдання, витративши менше ніж 30 мільйонів токенів. Використовуючи стандартні оцінювання з низьким бюджетом, дослідники фактично виключають найскладніші та найкритичніші завдання з процесу вимірювання.
Прискорення прогресу та три осі вдосконалення
AISI зазначає, що «часовий горизонт» передових моделей — складність завдань, з якими вони можуть впоратися — розширюється набагато швидше, ніж вважалося раніше. Хоча попередні оцінки припускали, що часовий горизонт для кіберзавдань подвоюється кожні 4,7 місяці при фіксованому бюджеті у 2,5 мільйона токенів, при вищих бюджетах ця швидкість значно зростає. При бюджеті у 50 мільйонів токенів темп подвоєння прискорюється до кожного 40–50 днів.
Новіші моделі (такі як протестовані серії GPT та Claude) демонструють покращення за трьома конкретними напрямками:
- Охоплення (Reach): Здатність справлятися з дедалі складнішими завданнями.
- Надійність (Reliability): Здатність вирішувати одне й те саме завдання стабільніше.
- Ефективність (Efficiency): Здатність вирішувати завдання, використовуючи менше токенів.
Наслідки для безпеки та впровадження ШІ
Це дослідження змінює парадигму оцінювання ШІ з «фіксованих балів» на «криві, що враховують обчислювальні ресурси». Для розробників і засновників це означає, що корисність моделі є функцією не лише її навчання, а й того, скільки обчислювальних ресурсів для виведення (inference compute) виділяється під час розгортання.
Оскільки вартість одного токена продовжує знижуватися, можливості, які раніше здавалися економічно недоцільними, стануть стандартом. Для безпеки ШІ це означає, що ризики, пов'язані з автономними агентами — наприклад, складні кібератаки — можуть бути значно недооцінені, якщо регулятори та компанії покладатимуться на традиційні бенчмарки з низьким бюджетом.
Ключові висновки
- Бенчмарки вводять в оману: Фіксовані бюджети токенів відображають мінімальну продуктивність моделі, систематично недооцінюючи межу можливостей ШІ-агентів.
- Обчислення масштабують можливості: Показники успішності в програмній інженерії та математиці значно зростають зі збільшенням бюджету обчислень під час тестування.
- Темп «подвоєння» прискорюється: При вищих обчислювальних бюджетах швидкість, з якою передові моделі опановують складні завдання, є набагато вищою, ніж оцінювалося раніше.
