AI एजेंट्स अब पेशेवर गुणवत्ता के साथ 16% फ्रीलांस काम पूरा कर रहे हैं
रिमोट लेबर का परिदृश्य आश्चर्यजनक गति से बदल रहा है क्योंकि AI एजेंट्स जटिल और व्यावसायिक रूप से मूल्यवान कार्यों को संभालने की बढ़ती क्षमता प्रदर्शित कर रहे हैं। नए डेटा से पता चलता है कि पेशेवर स्तर के फ्रीलांस काम के लिए शीर्ष ऑटोमेशन दर आठ महीने से भी कम समय में चार गुना बढ़ गई है।
रिमोट लेबर इंडेक्स (Remote Labor Index) का तीव्र उदय
रिमोट लेबर इंडेक्स (RLI), जो Scale Labs के सहयोग से Center for AI Safety (CAIS) द्वारा विकसित एक बेंचमार्क है, इस बात पर नज़र रखता है कि AI एजेंट्स कितनी बार भुगतान करने वाले ग्राहकों के लिए स्वीकार्य गुणवत्ता स्तर पर सशुल्क फ्रीलांस प्रोजेक्ट्स पूरे करते हैं। साधारण टेक्स्ट जनरेशन बेंचमार्क के विपरीत, RLI उच्च-जोखिम वाले क्षेत्रों पर ध्यान केंद्रित करता है, जिसमें 3D/CAD, आर्किटेक्चर, ग्राफिक डिजाइन, वीडियो एनिमेशन, ऑडियो इंजीनियरिंग और वेब ऐप डेवलपमेंट शामिल हैं।
इस अध्ययन में 358 सत्यापित फ्रीलांसरों से प्राप्त $144,000 के कुल मूल्य वाले 240 प्रोजेक्ट्स का विश्लेषण किया गया। परिणाम क्षमता में एक बड़ी छलांग दिखाते हैं: मात्र आठ महीने पहले, शीर्ष ऑटोमेशन दर केवल 2.5 प्रतिशत थी। आज, यह बढ़कर 16.1 प्रतिशत हो गई है।
Fable 5 ऑटोमेशन के नए क्षेत्र का नेतृत्व कर रहा है
नवीनतम RLI परिणाम मॉडल के प्रदर्शन में एक महत्वपूर्ण उछाल को दर्शाते हैं, जिसमें Fable 5 वर्तमान लीडर के रूप में उभरा है। Fable 5 ने 16.1 प्रतिशत ऑटोमेशन दर हासिल की, जो इसके निकटतम प्रतिद्वंद्वी Opus 4.8 (जिसका स्कोर 8.3 प्रतिशत था) के प्रदर्शन से प्रभावी रूप से दोगुना है। अन्य उल्लेखनीय प्रदर्शनकर्ताओं में GPT-5.5 शामिल था, जिसने 6.3 प्रतिशत तक की दर प्राप्त की।
यह तीव्र प्रगति विशेष एजेंटिक वर्कफ़्लो (agentic workflows) की बढ़ती क्षमताओं को रेखांकित करती है। इन परिणामों को प्राप्त करने के लिए, परीक्षण वातावरण में Blender, GIMP और Audacity जैसे 30 से अधिक पेशेवर अनुप्रयोगों (applications) से लैस वर्चुअल Linux मशीनों का उपयोग किया जाता है। एजेंट्स को प्रति प्रोजेक्ट 24 घंटे तक का कंप्यूट समय दिया जाता है और वे एक "क्रिटिक लूप" (critic loop) का उपयोग करते हैं—जो एक माध्यमिक AI एजेंट है जो मानव क्लाइंट की मांग करने वाली प्रकृति की नकल करने के लिए समीक्षा करता है और संशोधनों का सुझाव देता है।
AI जजों और पेशेवर सॉफ्टवेयर की सीमाएं
इन लाभों के बावजूद, रिपोर्ट एक महत्वपूर्ण बाधा को उजागर करती है: AI एजेंट्स को अभी भी पेशेवर सटीकता के "लास्ट माइल" (अंतिम चरण) के साथ संघर्ष करना पड़ता है। उदाहरण के लिए, आर्किटेक्चर कार्यों में, GPT-5.5 ने आकर्षक विजुअल रेंडर तो तैयार किए, लेकिन उसके पीछे की 3D ज्योमेट्री मौलिक रूप से त्रुटिपूर्ण पाई गई।
अध्ययन का एक महत्वपूर्ण निष्कर्ष यह है कि AI जज अभी तक मानव मूल्यांकनकर्ताओं (human evaluators) की जगह नहीं ले सकते। परीक्षण करने पर, AI जज बहुत अधिक उदार पाए गए; GPT-5.5 के लिए, AI मूल्यांकनकर्ता का स्कोर वास्तविक मानव-सत्यापित गुणवत्ता से लगभग तीन गुना अधिक था। यह विसंगति इसलिए है क्योंकि पेशेवर काम का सही मूल्यांकन करने के लिए विशेष सॉफ्टवेयर के साथ गहराई से इंटरैक्ट करने की क्षमता की आवश्यकता होती है—एक ऐसा क्षेत्र जहाँ वर्तमान AI एजेंट्स को अभी भी महत्वपूर्ण बाधाओं का सामना करना पड़ता है।
जैसे-जैसे एजेंट्स साधारण चैट इंटरफेस से जटिल ग्राफिकल प्रोग्राम चलाने की ओर बढ़ रहे हैं, उद्योग डिजिटल अर्थव्यवस्था में "काम" को परिभाषित करने और निष्पादित करने के तरीके में एक मौलिक बदलाव देख रहा है।
मुख्य बातें
- घातांकीय वृद्धि (Exponential Growth): पेशेवर फ्रीलांस कार्यों के लिए शीर्ष ऑटोमेशन दर आठ महीने से भी कम समय में 2.5% से बढ़कर 16.1% हो गई है।
- मॉडल नेतृत्व: Fable 5 वर्तमान में 16.1% ऑटोमेशन दर के साथ उद्योग का नेतृत्व कर रहा है, जो Opus 4.8 (8.3%) और GPT-5.5 (6.3%) से काफी बेहतर प्रदर्शन कर रहा है।
- मानवीय आवश्यकता: मानव मूल्यांकनकर्ता अनिवार्य बने हुए हैं, क्योंकि AI जज बहुत अधिक उदार होते हैं और उनमें विशेष सॉफ्टवेयर फाइलों में संरचनात्मक खामियों का पता लगाने की क्षमता की कमी होती है।
