AI ایجنٹس اب پیشہ ورانہ معیار کے ساتھ 16% فری لانس کام مکمل کر رہے ہیں

ریموٹ لیبر (دور دراز سے کام کرنے والے عملے) کا منظرنامہ حیرت انگیز رفتار سے بدل رہا ہے کیونکہ AI ایجنٹس پیچیدہ اور تجارتی طور پر قیمتی کاموں کو سنبھالنے کی بڑھتی ہوئی صلاحیت کا مظاہرہ کر رہے ہیں۔ نئے ڈیٹا سے پتہ چلتا ہے کہ پیشہ ورانہ معیار کے فری لانس کام کے لیے آٹومیشن (خودکاری) کی بلند ترین شرح آٹھ ماہ سے بھی کم وقت میں چار گنا بڑھ گئی ہے۔

ریموٹ لیبر انڈیکس (Remote Labor Index) کا تیزی سے بڑھتا ہوا رجحان

ریموٹ لیبر انڈیکس (RLI)، جو کہ Scale Labs کے تعاون سے Center for AI Safety (CAIS) کا تیار کردہ ایک معیار (benchmark) ہے، اس بات کا جائزہ لیتا ہے کہ AI ایجنٹس کتنی بار ادائیگی کرنے والے کلائنٹس کے لیے قابلِ قبول معیار پر بامعاوضہ فری لانس پروجیکٹس مکمل کرتے ہیں۔ سادہ ٹیکسٹ جنریشن بینچ مارکس کے برعکس، RLI زیادہ اہمیت رکھنے والے شعبوں پر توجہ مرکوز کرتا ہے جن میں 3D/CAD، آرکیٹیکچر، گرافک ڈیزائن، ویڈیو اینیمیشن، آڈیو انجینئرنگ، اور ویب ایپ ڈویلپمنٹ شامل ہیں۔

اس مطالعے میں 358 تصدیق شدہ فری لانسرز سے حاصل کردہ 240 پروجیکٹس کا تجزیہ کیا گیا جن کی مجموعی مالیت 144,000 ڈالر تھی۔ نتائج صلاحیت میں ایک بڑی چھلانگ دکھاتے ہیں: محض آٹھ ماہ قبل، آٹومیشن کی بلند ترین شرح صرف 2.5 فیصد تھی۔ آج، یہ شرح بڑھ کر 16.1 فیصد تک پہنچ گئی ہے۔

Fable 5 آٹومیشن کے نئے دور کی قیادت کر رہا ہے

RLI کے تازہ ترین نتائج ماڈل کی کارکردگی میں نمایاں اضافے کو اجاگر کرتے ہیں، جس میں Fable 5 موجودہ لیڈر کے طور پر ابھرا ہے۔ Fable 5 نے 16.1 فیصد آٹومیشن ریٹ حاصل کیا، جو کہ اس کے قریبی حریف Opus 4.8 (جس کا اسکور 8.3 فیصد تھا) کی کارکردگی سے تقریباً دوگنا ہے۔ دیگر نمایاں کارکردگی دکھانے والے ماڈلز میں GPT-5.5 شامل ہے، جس نے 6.3 فیصد تک کامیابی حاصل کی۔

یہ تیز رفتار ترقی خصوصی ایجنٹک ورک فلو (agentic workflows) کی بڑھتی ہوئی صلاحیتوں کو اجاگر کرتی ہے۔ ان نتائج کے حصول کے لیے، ٹیسٹنگ کے ماحول میں 30 سے زیادہ پیشہ ورانہ ایپلی کیشنز سے لیس ورچوئل Linux مشینوں کا استعمال کیا گیا ہے، جیسے کہ Blender، GIMP، اور Audacity۔ ایجنٹس کو فی پروجیکٹ 24 گھنٹے تک کا کمپیوٹ ٹائم دیا جاتا ہے اور وہ "critic loop" کا استعمال کرتے ہیں—جو کہ ایک ثانوی AI ایجنٹ ہے جو انسانی کلائنٹ کی سخت ضروریات کی نقل کرنے کے لیے کام کا جائزہ لیتا ہے اور اصلاحات کے لیے اشارے دیتا ہے۔

AI ججز اور پیشہ ورانہ سافٹ ویئر کی حدود

ان کامیابیوں کے باوجود، رپورٹ ایک اہم رکاوٹ کی نشاندہی کرتی ہے: AI ایجنٹس اب بھی پیشہ ورانہ درستگی کے "آخری مرحلے" (last mile) میں مشکلات کا شکار ہیں۔ مثال کے طور پر، آرکیٹیکچر کے کاموں میں، یہ دیکھا گیا کہ GPT-5.5 نے پرکشش بصری رینڈرز (visual renders) تو تیار کیے لیکن اس کے پیچھے موجود 3D جیومیٹری بنیادی طور پر ناقص رہی۔

اس مطالعے کا ایک اہم نتیجہ یہ ہے کہ AI ججز ابھی انسانی ماہرین (evaluators) کی جگہ نہیں لے سکتے۔ جب ٹیسٹ کیا گیا تو AI ججز بہت زیادہ نرم گیر پائے گئے؛ GPT-5.5 کے لیے، AI ایویلیوایٹر کا اسکور انسانی تصدیق شدہ معیار سے تقریباً تین گنا زیادہ تھا۔ یہ فرق اس لیے پایا جاتا ہے کیونکہ پیشہ ورانہ کام کا حقیقی فیصلہ کرنے کے لیے مخصوص سافٹ ویئر کے ساتھ گہرائی سے کام کرنے کی صلاحیت درکار ہوتی ہے—ایک ایسا شعبہ جہاں موجودہ AI ایجنٹس اب بھی بڑی مشکلات کا سامنا کر رہے ہیں۔

جیسے جیسے ایجنٹس سادہ چیٹ انٹرفیس سے نکل کر پیچیدہ گرافیکل پروگراموں کو چلانے کی طرف بڑھ رہے ہیں، صنعت ڈیجیٹل معیشت میں "کام" کی تعریف اور اس کی انجام دہی کے حوالے سے ایک بنیادی تبدیلی دیکھ رہی ہے۔

اہم نکات

  • تیزی سے بڑھتی ہوئی شرح: پیشہ ورانہ فری لانس کاموں کے لیے آٹومیشن کی بلند ترین شرح آٹھ ماہ سے بھی کم وقت میں 2.5% سے بڑھ کر 16.1% ہو گئی ہے۔
  • ماڈل کی قیادت: Fable 5 فی الحال 16.1% آٹومیشن ریٹ کے ساتھ صنعت کی قیادت کر رہا ہے، جو کہ Opus 4.8 (8.3%) اور GPT-5.5 (6.3%) سے کہیں بہتر کارکردگی دکھا رہا ہے۔
  • انسانی ضرورت: انسانی ماہرین (evaluators) کا کردار اب بھی ناگزیر ہے، کیونکہ AI ججز ضرورت سے زیادہ نرم گیر ثابت ہوتے ہیں اور ان میں مخصوص سافٹ ویئر فائلوں میں ساختی خامیوں کو پہچاننے کی صلاحیت کی کمی ہوتی ہے۔