Ejen AI Kini Menyiapkan 16% Kerja Freelance dengan Kualiti Profesional

Landskap buruh jarak jauh sedang berubah pada kadar yang sangat pantas apabila ejen AI menunjukkan keupayaan yang semakin meningkat untuk mengendalikan tugas yang kompleks dan bernilai komersial. Data baharu mendedahkan bahawa kadar automasi tertinggi bagi kerja freelance gred profesional telah meningkat empat kali ganda dalam masa kurang daripada lapan bulan.

Kebangkitan Pantas Indeks Buruh Jarak Jauh

Remote Labor Index (RLI), sebuah penanda aras yang dibangunkan oleh Center for AI Safety (CAIS) dengan kerjasama Scale Labs, menjejaki kekerapan ejen AI menyiapkan projek freelance berbayar pada tahap kualiti yang boleh diterima oleh pelanggan. Tidak seperti penanda aras penjanaan teks yang ringkas, RLI memberi tumpuan kepada domain berisiko tinggi termasuk 3D/CAD, seni bina, reka bentuk grafik, animasi video, kejuruteraan audio, dan pembangunan aplikasi web.

Kajian tersebut menganalisis 240 projek yang bernilai gabungan $144,000, yang diperoleh daripada 358 freelancer yang telah disahkan. Keputusan menunjukkan lonjakan besar dalam keupayaan: hanya lapan bulan yang lalu, kadar automasi tertinggi hanyalah 2.5 peratus. Hari ini, sempadan tersebut telah melonjak kepada 16.1 peratus.

Fable 5 Memimpin Sempadan Baharu Automasi

Keputusan RLI terbaharu menonjolkan lonjakan ketara dalam prestasi model, dengan Fable 5 muncul sebagai peneraju semasa. Fable 5 mencapai kadar automasi 16.1 peratus, secara berkesan menggandakan prestasi pesaing terdekatnya, Opus 4.8, yang mencatatkan 8.3 peratus. Prestasi ketara lain termasuk GPT-5.5, yang mencapai 6.3 peratus.

Kemajuan pantas ini menekankan keupayaan aliran kerja ejen (agentic workflows) khusus yang semakin memecut. Untuk mencapai keputusan ini, persekitaran ujian menggunakan mesin Linux maya yang dilengkapi dengan lebih 30 aplikasi profesional, seperti Blender, GIMP, dan Audacity. Ejen-ejen tersebut diberikan masa pengkomputeran sehingga 24 jam bagi setiap projek dan menggunakan "critic loop"—ejen AI sekunder yang menyemak dan meminta semakan semula untuk meniru sifat pelanggan manusia yang menuntut.

Had Hakim AI dan Perisian Profesional

Di sebalik kemajuan ini, laporan tersebut menonjolkan satu kekangan kritikal: ejen AI masih bergelut dengan peringkat terakhir ('last mile') ketepatan profesional. Dalam tugas seni bina, sebagai contoh, GPT-5.5 didapati telah menghasilkan render visual yang menarik, namun geometri 3D yang mendasarinya kekal cacat secara fundamental.

Penemuan penting kajian ini adalah hakim AI masih belum dapat menggantikan penilai manusia. Apabila diuji, hakim AI didapati terlalu bert