AI agent 现在能以专业水准完成 16% 的自由职业工作
随着 AI agent 在处理复杂且具有商业价值的任务方面展现出日益增长的能力,远程劳动力市场的格局正在以惊人的速度发生变化。新数据显示,专业级自由职业工作的最高自动化率在不到八个月的时间里翻了四倍。
远程劳动力指数(RLI)的快速崛起
远程劳动力指数(Remote Labor Index, RLI)是由 AI 安全中心(Center for AI Safety, CAIS)与 Scale Labs 合作开发的基准测试,用于追踪 AI agent 完成付费自由职业项目的频率,且其质量需达到付费客户可接受的水平。与简单的文本生成基准不同,RLI 专注于高风险领域,包括 3D/CAD、建筑、平面设计、视频动画、音频工程和 Web 应用开发。
该研究分析了来自 358 名经过验证的自由职业者的 240 个项目,总价值达 144,000 美元。结果显示其能力实现了巨大的飞跃:就在八个月前,最高自动化率仅为 2.5%。而如今,这一前沿水平已飙升至 16.1%。
Fable 5 引领自动化新前沿
最新的 RLI 结果突显了模型性能的显著提升,其中 Fable 5 脱颖而出成为当前的领导者。Fable 5 实现了 16.1% 的自动化率,其表现有效地达到了其最接近的竞争对手 Opus 4.8(得分为 8.3%)的两倍。其他表现突出的模型还包括达到 6.3% 的 GPT-5.5。
这种快速进展凸显了专业化智能体工作流(agentic workflows)能力的加速提升。为了实现这些结果,测试环境使用了配备了 30 多种专业应用程序(如 Blender、GIMP 和 Audacity)的虚拟 Linux 机器。每个项目为 agent 提供长达 24 小时的计算时间,并利用“评论循环”(critic loop)——即一个用于审查并提示修改的二级 AI agent,以模拟人类客户苛刻的要求。
AI 评判者与专业软件的局限性
尽管取得了这些进展,报告仍强调了一个关键瓶颈:AI agent 在专业准确性的“最后一公里”上仍然面临困难。例如,在建筑任务中,研究发现 GPT-5.5 虽然生成了具有吸引力的视觉渲染图,但其底层的 3D 几何结构仍然存在根本性的缺陷。
该研究的一个重要发现是,AI 评判者尚无法取代人类评估者。测试发现,AI 评判者过于宽松;对于 GPT-5.5,AI 评估者的评分几乎是经人类验证的实际质量的三倍。这种差异的存在是因为,要真正评判专业工作,需要具备与专业软件深度交互的能力——而这正是当前 AI agent 仍面临重大障碍的领域。
随着 agent 从简单的聊天界面转向操作复杂的图形程序,业界正在见证数字经济中“工作”定义和执行方式的根本性转变。
核心要点
- 指数级增长: 专业自由职业任务的最高自动化率在不到八个月的时间里从 2.5% 跃升至 16.1%。
- 模型领先地位: Fable 5 目前以 16.1% 的自动化率领先行业,表现显著优于 Opus 4.8 (8.3%) 和 GPT-5.5 (6.3%)。
- 对人类的需求: 人类评估者仍然必不可少,因为 AI 评判者往往过于宽容,且缺乏检测专业软件文件中结构性缺陷的能力。
