ИИ-агенты теперь выполняют 16% фриланс-задач на профессиональном уровне

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorialпозавчера3мин чтения

В этой статье

ИИ-агенты теперь выполняют 16% фриланс-задач на профессиональном уровне

Ландшафт удаленной работы меняется с ошеломляющей скоростью: ИИ-агенты демонстрируют все большую способность справляться со сложными, коммерчески ценными задачами. Новые данные показывают, что максимальный уровень автоматизации профессионального фриланса вырос в четыре раза менее чем за восемь месяцев.

Стремительный рост индекса удаленной работы

Remote Labor Index (RLI) — это бенчмарк, разработанный Center for AI Safety (CAIS) совместно со Scale Labs. Он отслеживает, как часто ИИ-агенты завершают оплачиваемые фриланс-проекты на уровне качества, приемлемом для заказчиков. В отличие от простых тестов на генерацию текста, RLI фокусируется на критически важных областях, включая 3D/CAD, архитектуру, графический дизайн, видеоанимацию, аудиоинженерию и разработку веб-приложений.

В исследовании было проанализировано 240 проектов общей стоимостью 144 000 долларов США, взятых у 358 проверенных фрилансеров. Результаты демонстрируют колоссальный скачок возможностей: всего восемь месяцев назад максимальный уровень автоматизации составлял лишь 2,5%. Сегодня этот показатель взлетел до 16,1%.

Fable 5 лидирует на новых рубежах автоматизации

Последние результаты RLI указывают на значительный скачок производительности моделей, где текущим лидером стал Fable 5. Fable 5 достиг уровня автоматизации в 16,1%, фактически вдвое превысив показатели своего ближайшего конкурента Opus 4.8, набравшего 8,3%. Среди других заметных результатов — GPT-5.5, достигшая 6,3%.

Этот стремительный прогресс подчеркивает ускоряющиеся возможности специализированных агентских рабочих процессов (agentic workflows). Для достижения таких результатов в тестовой среде используются виртуальные машины Linux, оснащенные более чем 30 профессиональными приложениями, такими как Blender, GIMP и Audacity. Агентам выделяется до 24 часов вычислительного времени на проект, и они используют «цикл критика» (critic loop) — вторичного ИИ-агента, который проверяет работу и запрашивает правки, имитируя требовательность реального заказчика.

Ограничения ИИ-судей и профессионального ПО

Несмотря на эти успехи, в отчете отмечается критическое «узкое место»: ИИ-агенты все еще испытывают трудности с обеспечением профессиональной точности на «последней миле». Например, в архитектурных задачах было обнаружено, что GPT-5.5 генерирует привлекательные визуальные рендеры, в то время как лежащая в их основе 3D-геометрия остается фундаментально ошибочной.

Важным выводом исследования стало то, что ИИ-судьи пока не могут заменить людей-экспертов. При тестировании выяснилось, что ИИ-судьи слишком снисходительны: для GPT-5.5 оценка ИИ-эксперта была почти в три раза выше, чем реальное качество, подтвержденное человеком. Это расхождение объясняется тем, что подлинная оценка профессиональной работы требует способности глубоко взаимодействовать со специализированным ПО — а в этой области современные ИИ-агенты все еще сталкиваются со значительными трудностями.

По мере того как агенты переходят от простых чат-интерфейсов к управлению сложными графическими программами, индустрия становится свидетелем фундаментального сдвига в том, как определяется и выполняется «работа» в цифровой экономике.

Основные выводы

Экспоненциальный рост: Максимальный уровень автоматизации профессиональных фриланс-задач подскочил с 2,5% до 16,1% менее чем за восемь месяцев.
Лидерство моделей: На данный момент в отрасли лидирует Fable 5 с уровнем автоматизации 16,1%, значительно опережая Opus 4.8 (8,3%) и GPT-5.5 (6,3%).
Необходимость участия человека: Эксперты-люди остаются незаменимыми, так как ИИ-судьи склонны быть слишком снисходительными и не обладают способностью обнаруживать структурные ошибки в файлах специализированного ПО.

ИИ-агенты теперь выполняют 16% фриланс-задач на профессиональном уровне

ИИ-агенты теперь выполняют 16% фриланс-задач на профессиональном уровне

Стремительный рост индекса удаленной работы

Fable 5 лидирует на новых рубежах автоматизации

Ограничения ИИ-судей и профессионального ПО

Основные выводы

Продолжить чтение

Новый бенчмарк AA Briefcase выявляет трудности ИИ с выполнением реальных интеллектуальных задач

Расцвет агентного ИИ: почему технологические команды находятся на передовой автоматизации

Почему стандартные бенчмарки ИИ систематически недооценивают возможности агентов