ШІ-моделі працюють безперервно протягом 19 днів у новому бенчмарку MirrorCode
Ландшафт автономної розробки програмного забезпечення змінюється: від простих фрагментів коду до масштабних багатоденних програмістських марафонів. Новий бенчмарк від Epoch AI та METR під назвою MirrorCode показує, що ШІ-моделі тепер можуть долати складні завдання з реімплементації, які раніше потребували тижнів людської праці.
Випробування ШІ за допомогою MirrorCode
MirrorCode є суттєвим відходом від традиційних бенчмарків у галузі розробки ПЗ, які зазвичай обмежують витрати на інференс лише 1–10 доларами за завдання. Натомість цей бенчмарк вимагає від ШІ-моделей реімплементації цілих складних програм з нуля — від утиліт Unix і криптографії до біоінформатики та серіалізації даних — без доступу до оригінального вихідного коду. Щоб забезпечити справжню функціональну еквівалентність, кожне згенероване ШІ рішення має пройти приховані наскрізні тести, яких модель не бачить під час етапу розробки.
Масштаб цих завдань є безпрецедентним. Одне конкретне завдання в бенчмарку вимагало від ШІ-моделі безперервної роботи протягом 19 днів без будь-якого втручання людини, що призвело до вартості інференсу у 2600 доларів за один запуск.
Claude Opus 4.7 очолює перегони
Результати бенчмарку підкреслюють чітку ієрархію серед сучасних передових моделей. Claude Opus 4.7 стала лідером із показником вирішення завдань 56 відсотків, значно випередивши GPT-5.5, яка досягла 44 відсотків, та Gemini 3.1 Pro Preview, показник якої склав 32 відсотки.
Видатним успіхом стала робота з інструментарієм для біоінформатики gotree. Ця програма складається приблизно з 16 000 рядків коду на Go і містить понад 40 окремих команд. У той час як людині-інженеру зазвичай знадобилося б від 2 до 17 тижнів для виконання такого завдання, Claude Opus 4.7 успішно реімплементувала його всього за 14 годин із витратами 251 долар. Навіть у випадках, коли моделям не вдається досягти 100-відсоткової ідеальної реімплементації, вони вражаючим чином проходять понад 90 відсотків функціональних тестів.
Розрив у складності та ризики запам'ятовування
Попри ці стрибки, результати MirrorCode виявляють чітку «стелю складності». Хоча всі протестовані моделі надійно справляються з невеликими програмами, такими як uuid або parseqsv, жодна модель наразі не має можливості повністю вирішити завдання з категорії «великих». Передовий край ШІ-кодування все ще стикається з труднощами, коли постає питання наймасштабніших та найбільш взаємопов'язаних архітектур програмного забезпечення.
Epoch AI також розглянула критичне питання оцінки LLM: забруднення даних. Оскільки бенчмарк використовує програми з відкритим вихідним кодом, існує ризик того, що моделі вже запам'ятали оригінальний код під час етапів навчання. Хоча попередні результати свідчать про те, що продуктивність не зумовлена виключно запам'ятовуванням, дослідники визнають, що не можуть повністю виключити його вплив на поточні показники вирішення завдань.
Чому це важливо для індустрії ШІ
MirrorCode сигналізує про перехід від «ШІ як Copilot» до «ШІ як автономного агента». Доводячи, що моделі можуть підтримувати логічне мислення протягом 19-денних періодів і опрацьовувати тисячі рядків коду, індустрія наближається до створення агентів, здатних керувати повним життєвим циклом програмного забезпечення. Оскільки витрати на інференс коливаються — наприклад, GPT-5.5 коштує втричі дорожче за свого попередника, тоді як Claude Opus 4.7 стала втричі ефективнішою — економічна доцільність автономної розробки стане наступним великим рубежем.
Основні висновки
- Новий масштаб мислення: MirrorCode розширює межі ШІ, дозволяючи використовувати величезні бюджети на інференс, де вартість одного завдання може сягати 2600 доларів, а тривалість — 19 днів.
- Claude лідирує за продуктивністю: Claude Opus 4.7 наразі є лідером бенчмарку з показником вирішення 56%, демонструючи елітні можливості реімплементації масштабних кодових баз на Go.
- Бар'єри складності залишаються: Хоча завдання малого масштабу вирішуються надійно, жодна існуюча модель поки що не здатна повністю розв'язати найскладніші програмістські завдання великого масштабу.
