وكلاء الذكاء الاصطناعي ينجزون الآن 16% من وظائف العمل الحر بجودة احترافية
يتغير مشهد العمل عن بُعد بوتيرة مذهلة، حيث يُظهر وكلاء الذكاء الاصطناعي قدرة متزايدة على التعامل مع المهام المعقدة وذات القيمة التجارية. وتكشف بيانات جديدة أن أعلى معدل للأتمتة في أعمال العمل الحر ذات المستوى الاحترافي قد تضاعف أربع مرات في أقل من ثمانية أشهر.
الصعود السريع لمؤشر العمل عن بُعد
يتتبع مؤشر العمل عن بُعد (RLI)، وهو معيار تم تطويره من قبل Center for AI Safety (CAIS) بالتعاون مع Scale Labs، مدى تكرار إنجاز وكلاء الذكاء الاصطناعي لمشاريع العمل الحر المدفوعة بمستوى جودة مقبول من قبل العملاء. وبخلاف معايير توليد النصوص البسيطة، يركز مؤشر RLI على المجالات عالية الأهمية بما في ذلك 3D/CAD، والهندسة المعمارية، والتصميم الجرافيكي، ورسوم الفيديو المتحركة، والهندسة الصوتية، وتطوير تطبيقات الويب.
حللت الدراسة 240 مشروعاً بقيمة إجمالية بلغت 144,000 دولار، تم الحصول عليها من 358 مستقلاً موثقاً. وتظهر النتائج قفزة هائلة في القدرات: فقبل ثمانية أشهر فقط، كان أعلى معدل للأتمتة لا يتجاوز 2.5 بالمائة، أما اليوم، فقد قفزت هذه النسبة لتصل إلى 16.1 بالمائة.
Fable 5 يتصدر الآفاق الجديدة للأتمتة
تسلط أحدث نتائج RLI الضوء على قفزة كبيرة في أداء النماذج، حيث برز Fable 5 كقائد حالي. حقق Fable 5 معدل أتمتة بنسبة 16.1 بالمائة، وهو ما يضاعف فعلياً أداء أقرب منافسيه، Opus 4.8، الذي سجل 8.3 بالمائة. وشملت الأداءات البارزة الأخرى GPT-5.5، الذي وصل إلى 6.3 بالمائة.
يؤكد هذا التقدم السريع على القدرات المتسارعة لسير العمل الوكيل المتخصص (agentic workflows). ولتحقيق هذه النتائج، تستخدم بيئة الاختبار أجهزة Linux افتراضية مجهزة بأكثر من 30 تطبيقاً احترافياً، مثل Blender وGIMP وAudacity. ويُمنح الوكلاء ما يصل إلى 24 ساعة من وقت الحوسبة لكل مشروع، كما يستخدمون "حلقة الناقد" (critic loop) — وهو وكيل ذكاء اصطناعي ثانوي يقوم بالمراجعة وطلب التعديلات لمحاكاة الطبيعة المتطلبة للعميل البشري.
محدودية حكام الذكاء الاصطناعي والبرامج الاحترافية
على الرغم من هذه المكاسب، يسلط التقرير الضوء على عقبة حرجة: لا يزال وكلاء الذكاء الاصطناعي يعانون في "الميل الأخير" من الدقة الاحترافية. ففي مهام الهندسة المعمارية، على سبيل المثال، وُجد أن GPT-5.5 قد أنتج صوراً مرئية جذابة بينما ظلت الهندسة ثلاثية الأبعاد (3D geometry) الأساسية معيبة بشكل جوهري.
ومن النتائج الهامة للدراسة أن حكام الذكاء الاصطناعي لا يمكنهم بعد استبدال المقيمين البشريين. فعند اختبارهم، وُجد أن حكام الذكاء الاصطناعي متساهلون للغاية؛ فبالنسبة لـ GPT-5.5، كانت درجة مقيم الذكاء الاصطناعي أعلى بثلاث مرات تقريباً من الجودة الفعلية التي تحققها المراجعة البشرية. ويعود هذا التفاوت إلى أن التقييم الحقيقي للعمل الاحترافي يتطلب القدرة على التفاعل بعمق مع البرامج المتخصصة — وهو مجال لا يزال يواجه فيه وكلاء الذكاء الاصطناعي الحاليون عقبات كبيرة.
ومع انتقال الوكلاء من واجهات الدردشة البسيطة إلى تشغيل البرامج الرسومية المعقدة، يشهد القطاع تحولاً جذرياً في كيفية تعريف "العمل" وتنفيذه في الاقتصاد الرقمي.
أهم النقاط المستخلصة
- نمو أسي: قفز أعلى معدل للأتمتة في مهام العمل الحر الاحترافية من 2.5% إلى 16.1% في أقل من ثمانية أشهر.
- ريادة النماذج: يتصدر Fable 5 الصناعة حالياً بمعدل أتمتة قدره 16.1%، متفوقاً بشكل كبير على Opus 4.8 (8.3%) وGPT-5.5 (6.3%).
- الضرورة البشرية: لا يزال المقيمون البشريون ضروريين، حيث يميل حكام الذكاء الاصطناعي إلى أن يكونوا سخيين للغاية ويفتقرون إلى القدرة على اكتشاف العيوب الهيكلية في ملفات البرامج المتخصصة.
