ШІ-агенти тепер виконують 16% фріланс-завдань на професійному рівні

Translated for your language. Read the original.

AI-assisted draft.

In this article

ШІ-агенти тепер виконують 16% фріланс-завдань на професійному рівні

Ландшафт дистанційної праці змінюється приголомшливими темпами, оскільки ШІ-агенти демонструють дедалі більшу здатність виконувати складні, комерційно цінні завдання. Нові дані свідчать про те, що найвищий рівень автоматизації фріланс-робіт професійного рівня зріс у чотири рази менш ніж за вісім місяців.

Стрімке зростання Індексу дистанційної праці

Remote Labor Index (RLI) — це еталонний показник, розроблений Center for AI Safety (CAIS) спільно зі Scale Labs, який відстежує, як часто ШІ-агенти виконують оплачувані фріланс-проєкти на рівні якості, прийнятному для клієнтів. На відміну від простих тестів на генерацію тексту, RLI зосереджується на критично важливих сферах, зокрема 3D/CAD, архітектурі, графічному дизайні, відеоанімації, аудіоінженерії та розробці вебдодатків.

У дослідженні було проаналізовано 240 проєктів загальною вартістю 144 000 доларів США, отриманих від 358 перевірених фрілансерів. Результати демонструють величезний стрибок у можливостях: лише вісім місяців тому найвищий рівень автоматизації становив лише 2,5 відсотка. Сьогодні цей показник зріс до 16,1 відсотка.

Fable 5 очолює нові горизонти автоматизації

Останні результати RLI вказують на значний стрибок у продуктивності моделей, де лідером став Fable 5. Fable 5 досяг рівня автоматизації 16,1%, що фактично вдвічі перевищує показники найближчого конкурента — Opus 4.8, який набрав 8,3%. Іншими помітними моделями були GPT-5.5, що досягла 6,3%.

Такий стрімкий прогрес підкреслює прискорення можливостей спеціалізованих агентських робочих процесів (agentic workflows). Для досягнення таких результатів у тестовому середовищі використовуються віртуальні машини Linux, оснащені понад 30 професійними програмами, такими як Blender, GIMP та Audacity. Агентам надається до 24 годин обчислювального часу на проєкт, і вони використовують «цикл критика» (critic loop) — допоміжного ШІ-агента, який перевіряє роботу та пропонує правки, щоб імітувати вимогливість реального клієнта.

Обмеження ШІ-суддів та професійного програмного забезпечення

Попри ці досягнення, у звіті наголошується на критичному вузькому місці: ШІ-агенти все ще стикаються з труднощами на етапі «останньої милі» професійної точності. Наприклад, у завданнях з архітектури було виявлено, що GPT-5.5 створює привабливі візуальні рендери, тоді як базова 3D-геометрія залишається принципово помилковою.

Важливим висновком дослідження є те, що ШІ-судді поки що не можуть замінити людей-експертів. Під час тестування було виявлено, що ШІ-судді занадто поблажливі: для GPT-5.5 оцінка ШІ-експерта була майже втричі вищою за фактичну якість, підтверджену людиною. Ця розбіжність існує тому, що справжня оцінка професійної роботи потребує здатності глибоко взаємодіяти зі спеціалізованим програмним забезпеченням — сферою, де сучасні ШІ-агенти все ще стикаються зі значними перешкодами.

Оскільки агенти переходять від простих чат-інтерфейсів до роботи зі складними графічними програмами, галузь спостерігає фундаментальний зсув у тому, як визначається та виконується «робота» в цифровій економіці.

Основні висновки

Експоненціальне зростання: Найвищий рівень автоматизації професійних фріланс-завдань зріс з 2,5% до 16,1% менш ніж за вісім місяців.
Лідерство моделей: Наразі Fable 5 лідирує в галузі з рівнем автоматизації 16,1%, значно випереджаючи Opus 4.8 (8,3%) та GPT-5.5 (6,3%).
Необхідність людського фактора: Люди-експерти залишаються незамінними, оскільки ШІ-судді схильні бути занадто поблажливими та не мають здатності виявляти структурні помилки у файлах спеціалізованого програмного забезпечення.

ШІ-агенти тепер виконують 16% фріланс-завдань на професійному рівні

ШІ-агенти тепер виконують 16% фріланс-завдань на професійному рівні

Стрімке зростання Індексу дистанційної праці

Fable 5 очолює нові горизонти автоматизації

Обмеження ШІ-суддів та професійного програмного забезпечення

Основні висновки

Continue reading

Новий бенчмарк AA Briefcase виявляє труднощі ШІ з реальною інтелектуальною роботою

Розквіт агентного ШІ: чому технологічні команди очолюють передову автоматизації

Чому стандартні бенчмарки ШІ систематично недооцінюють можливості агентів