AIエージェントがプロ品質のフリーランス業務の16%を完了

AIエージェントが複雑で商業的価値の高いタスクをこなす能力を向上させており、リモートワークの情勢は驚異的なスピードで変化しています。最新のデータによると、プロレベルのフリーランス業務における最高自動化率は、8ヶ月足らずで4倍に達しました。

リモート・レイバー・インデックス(RLI)の急速な上昇

Center for AI Safety (CAIS) が Scale Labs と共同で開発したベンチマークである Remote Labor Index (RLI) は、AIエージェントがクライアントが納得できる品質レベルで、有料のフリーランスプロジェクトをどの程度の頻度で完了できるかを追跡するものです。単純なテキスト生成のベンチマークとは異なり、RLIは3D/CAD、建築、グラフィックデザイン、ビデオアニメーション、オーディオエンジニアリング、ウェブアプリ開発といった、専門性の高い領域に焦点を当てています。

この調査では、358人の認証済みフリーランサーから提供された、総額144,000ドル相当の240のプロジェクトを分析しました。その結果、能力の劇的な飛躍が明らかになりました。わずか8ヶ月前、最高自動化率はわずか2.5%に過ぎませんでしたが、今日ではその最前線は16.1%まで急上昇しています。

Fable 5 が自動化の新たな最前線をリード

最新のRLIの結果は、モデルのパフォーマンスが大幅に向上したことを示しており、Fable 5 が現在のリーダーとして浮上しています。Fable 5 は16.1%の自動化率を達成し、次点の Opus 4.8(8.3%)のパフォーマンスを実質的に倍増させました。その他の注目すべきモデルには、6.3%に達した GPT-5.5 が含まれます。

この急速な進歩は、特化型エージェント・ワークフローの能力が加速していることを裏付けています。これらの結果を得るために、テスト環境では Blender、GIMP、Audacity など30以上のプロフェッショナル向けアプリケーションを備えた仮想 Linux マシンが使用されています。エージェントにはプロジェクトごとに最大24時間の計算時間が与えられ、人間のクライアントの厳しい要求を模倣するために、レビューを行い修正を促す二次的な AI エージェントである「クリティック・ループ(critic loop)」が活用されています。

AI判定器とプロフェッショナル・ソフトウェアの限界

こうした進歩の一方で、報告書は重大なボトルネックを指摘しています。それは、AIエージェントがいまだにプロフェッショナルな正確性の「ラストワンマイル」に苦戦していることです。例えば建築タスクにおいて、GPT-5.5 は魅力的なビジュアル・レンダリングを生成したものの、その基礎となる3Dジオメトリには根本的な欠陥が残っていることが判明しました。

この調査の重要な発見は、AI判定器はまだ人間の評価者に取って代わることはできないということです。テストの結果、AI判定器はあまりにも寛容すぎることが分かりました。GPT-5.5 の場合、AI評価者によるスコアは、実際に人間が検証した品質よりも3倍近く高い数値を示しました。この乖離が生じる理由は、プロフェッショナルな仕事を真に評価するには、専門的なソフトウェアと深くやり取りする能力が必要だからです。これは、現在のAIエージェントが依然として大きな障壁に直面している領域です。

エージェントが単純なチャットインターフェースから複雑なグラフィカル・プログラムの操作へと移行するにつれ、デジタル経済における「仕事」の定義と実行方法に根本的な変化が起きようとしています。

主なポイント

  • 指数関数的な成長: プロフェッショナルなフリーランス業務の最高自動化率は、8ヶ月足らずで2.5%から16.1%へと急増しました。
  • モデルのリーダーシップ: Fable 5 が現在16.1%の自動化率で業界をリードしており、Opus 4.8 (8.3%) や GPT-5.5 (6.3%) を大幅に上回っています。
  • 人間の必要性: AI判定器は寛容すぎる傾向があり、専門的なソフトウェアファイルの構造的な欠陥を検出する能力に欠けているため、人間の評価者は依然として不可欠です。