AI एजंट्स आता १६% फ्रीलान्स कामे व्यावसायिक दर्जासह पूर्ण करत आहेत
रिमोट लेबरचे (दूरस्थ कामगार) स्वरूप वेगाने बदलत आहे, कारण AI एजंट्स जटिल आणि व्यावसायिकदृष्ट्या मौल्यवान कामे हाताळण्याची वाढती क्षमता दर्शवत आहेत. नवीन डेटा असे दर्शवतो की, व्यावसायिक दर्जाच्या फ्रीलान्स कामासाठी ऑटोमेशनचा (स्वयंचलन) सर्वोच्च दर आठ महिन्यांपेक्षा कमी कालावधीत चार पटीने वाढला आहे.
रिमोट लेबर इंडेक्सचा (Remote Labor Index) झपाट्याने झालेला उदय
रिमोट लेबर इंडेक्स (RLI), जो Center for AI Safety (CAIS) ने Scale Labs च्या सहकार्याने विकसित केलेला एक बेंचमार्क आहे, AI एजंट्स किती वेळा पैसे देणाऱ्या क्लायंट्सना स्वीकारार्ह अशा दर्जेदार पातळीवर सशुल्क फ्रीलान्स प्रकल्प पूर्ण करतात, याचा मागोवा घेतो. साध्या टेक्स्ट जनरेशन बेंचमार्कच्या उलट, RLI 3D/CAD, आर्किटेक्चर, ग्राफिक डिझाइन, व्हिडिओ ॲनिमेशन, ऑडिओ इंजिनिअरिंग आणि वेब ॲप डेव्हलपमेंट यांसारख्या उच्च-जोखीम असलेल्या क्षेत्रांवर लक्ष केंद्रित करतो.
या अभ्यासात ३५८ सत्यापित फ्रीलान्सर्सकडून घेतलेल्या एकूण $१४४,००० मूल्य असलेल्या २४० प्रकल्पांचे विश्लेषण करण्यात आले. निकाल क्षमतांमध्ये मोठी झेप दर्शवतात: अवघ्या आठ महिन्यांपूर्वी, ऑटोमेशनचा सर्वोच्च दर केवळ २.५ टक्के होता. आज, हा आकडा १६.१ टक्क्यांपर्यंत पोहोचला आहे.
ऑटोमेशनच्या नवीन क्षितिजाचे नेतृत्व Fable 5 करत आहे
अलीकडील RLI निकाल मॉडेलच्या कामगिरीतील लक्षणीय वाढ अधोरेखित करतात, ज्यामध्ये Fable 5 सध्याचा लीडर म्हणून समोर आले आहे. Fable 5 ने १६.१ टक्के ऑटोमेशन दर गाठला आहे, जो त्याच्या जवळच्या स्पर्धक Opus 4.8 च्या (८.३ टक्के) कामगिरीपेक्षा दुप्पट आहे. GPT-5.5 हे देखील उल्लेखनीय कामगिरी करणारे मॉडेल असून त्याने ६.३ टक्के दर गाठला आहे.
ही झपाट्याने होणारी प्रगती विशेष 'एजेंटिक वर्कफ्लो'च्या (agentic workflows) वाढत्या क्षमता अधोरेखित करते. हे निकाल मिळवण्यासाठी, टेस्टिंग एन्व्हायरनमेंटमध्ये Blender, GIMP आणि Audacity सारख्या ३० हून अधिक व्यावसायिक ॲप्लिकेशन्ससह व्हर्च्युअल Linux मशीन्सचा वापर केला जातो. एजंट्सना प्रति प्रकल्प २४ तासांपर्यंत संगणकीय वेळ (compute time) दिली जाते आणि ते "क्रिटिक लूप" (critic loop) वापरतात—जो एक दुय्यम AI एजंट आहे जो मानवी क्लायंटच्या मागणीच्या स्वरूपाची नक्कल करण्यासाठी पुनरावलोकन करतो आणि सुधारणा सुचवतो.
AI जज आणि व्यावसायिक सॉफ्टवेअरच्या मर्यादा
या प्रगतीनंतरही, अहवाल एका गंभीर अडथळ्यावर प्रकाश टाकतो: AI एजंट्सना अजूनही व्यावसायिक अचूकतेच्या "last mile" (अंतिम टप्प्यातील अचूकता) साठी संघर्ष करावा लागत आहे. उदाहरणार्थ, आर्किटेक्चरच्या कामात, GPT-5.5 ने आकर्षक व्हिज्युअल रेंडर्स तयार केले होते, परंतु त्यातील मूळ 3D भूमिती (geometry) मूलभूतपणे त्रुटीपूर्ण होती.
या अभ्यासाचा एक महत्त्वाचा निष्कर्ष असा आहे की, AI जज अजूनही मानवी मूल्यमापनकर्त्यांची जागा घेऊ शकत नाहीत. चाचणी दरम्यान असे दिसून आले की, AI जज खूपच उदार (lenient) होते; GPT-5.5 साठी, AI मूल्यमापनकर्त्याचा स्कोअर मानवी पडताळणीनुसार मिळालेल्या गुणवत्तेपेक्षा जवळपास तीन पटीने जास्त होता. हा फरक निर्माण होण्याचे कारण म्हणजे व्यावसायिक कामाचे खरे मूल्यमापन करण्यासाठी विशेष सॉफ्टवेअरसोबत सखोल संवाद साधण्याची क्षमता आवश्यक असते—ज्या क्षेत्रात सध्याचे AI एजंट्स अजूनही मोठ्या अडचणींचा सामना करत आहेत.
जसे एजंट्स साध्या चॅट इंटरफेसवरून जटिल ग्राफिकल प्रोग्राम्स चालवण्याकडे वळत आहेत, तसे डिजिटल अर्थव्यवस्थेत "काम" कसे परिभाषित केले जाते आणि कार्यान्वित केले जाते, यामध्ये उद्योग एक मूलभूत बदल पाहत आहे.
मुख्य निष्कर्ष
- झपाट्याने वाढ: व्यावसायिक फ्रीलान्स कामांसाठी ऑटोमेशनचा सर्वोच्च दर आठ महिन्यांपेक्षा कमी कालावधीत २.५% वरून १६.१% पर्यंत वाढला आहे.
- मॉडेलचे नेतृत्व: Fable 5 सध्या १६.१% ऑटोमेशन दरासह उद्योगाचे नेतृत्व करत आहे, जे Opus 4.8 (८.३%) आणि GPT-5.5 (६.३%) पेक्षा लक्षणीयरीत्या सरस आहे.
- मानवी आवश्यकतेची गरज: मानवी मूल्यमापनकर्ते अजूनही आवश्यक आहेत, कारण AI जज खूपच उदार असतात आणि त्यांना विशेष सॉफ्टवेअर फाइल्समधील संरचनात्मक त्रुटी शोधण्याची क्षमता नसते.
