AI एजंट्स आता व्यावसायिक दर्जासह फ्रीलान्स कामांपैकी १६% पूर्ण करत आहेत

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial२ दिवसांपूर्वी3min read

AI एजंट्स आता व्यावसायिक दर्जासह फ्रीलान्स कामांपैकी १६% पूर्ण करत आहेत

In this article

AI एजंट्स आता १६% फ्रीलान्स कामे व्यावसायिक दर्जासह पूर्ण करत आहेत

रिमोट लेबरचे (दूरस्थ कामगार) स्वरूप वेगाने बदलत आहे, कारण AI एजंट्स जटिल आणि व्यावसायिकदृष्ट्या मौल्यवान कामे हाताळण्याची वाढती क्षमता दर्शवत आहेत. नवीन डेटा असे दर्शवतो की, व्यावसायिक दर्जाच्या फ्रीलान्स कामासाठी ऑटोमेशनचा (स्वयंचलन) सर्वोच्च दर आठ महिन्यांपेक्षा कमी कालावधीत चार पटीने वाढला आहे.

रिमोट लेबर इंडेक्सचा (Remote Labor Index) झपाट्याने झालेला उदय

रिमोट लेबर इंडेक्स (RLI), जो Center for AI Safety (CAIS) ने Scale Labs च्या सहकार्याने विकसित केलेला एक बेंचमार्क आहे, AI एजंट्स किती वेळा पैसे देणाऱ्या क्लायंट्सना स्वीकारार्ह अशा दर्जेदार पातळीवर सशुल्क फ्रीलान्स प्रकल्प पूर्ण करतात, याचा मागोवा घेतो. साध्या टेक्स्ट जनरेशन बेंचमार्कच्या उलट, RLI 3D/CAD, आर्किटेक्चर, ग्राफिक डिझाइन, व्हिडिओ ॲनिमेशन, ऑडिओ इंजिनिअरिंग आणि वेब ॲप डेव्हलपमेंट यांसारख्या उच्च-जोखीम असलेल्या क्षेत्रांवर लक्ष केंद्रित करतो.

या अभ्यासात ३५८ सत्यापित फ्रीलान्सर्सकडून घेतलेल्या एकूण $१४४,००० मूल्य असलेल्या २४० प्रकल्पांचे विश्लेषण करण्यात आले. निकाल क्षमतांमध्ये मोठी झेप दर्शवतात: अवघ्या आठ महिन्यांपूर्वी, ऑटोमेशनचा सर्वोच्च दर केवळ २.५ टक्के होता. आज, हा आकडा १६.१ टक्क्यांपर्यंत पोहोचला आहे.

ऑटोमेशनच्या नवीन क्षितिजाचे नेतृत्व Fable 5 करत आहे

अलीकडील RLI निकाल मॉडेलच्या कामगिरीतील लक्षणीय वाढ अधोरेखित करतात, ज्यामध्ये Fable 5 सध्याचा लीडर म्हणून समोर आले आहे. Fable 5 ने १६.१ टक्के ऑटोमेशन दर गाठला आहे, जो त्याच्या जवळच्या स्पर्धक Opus 4.8 च्या (८.३ टक्के) कामगिरीपेक्षा दुप्पट आहे. GPT-5.5 हे देखील उल्लेखनीय कामगिरी करणारे मॉडेल असून त्याने ६.३ टक्के दर गाठला आहे.

ही झपाट्याने होणारी प्रगती विशेष 'एजेंटिक वर्कफ्लो'च्या (agentic workflows) वाढत्या क्षमता अधोरेखित करते. हे निकाल मिळवण्यासाठी, टेस्टिंग एन्व्हायरनमेंटमध्ये Blender, GIMP आणि Audacity सारख्या ३० हून अधिक व्यावसायिक ॲप्लिकेशन्ससह व्हर्च्युअल Linux मशीन्सचा वापर केला जातो. एजंट्सना प्रति प्रकल्प २४ तासांपर्यंत संगणकीय वेळ (compute time) दिली जाते आणि ते "क्रिटिक लूप" (critic loop) वापरतात—जो एक दुय्यम AI एजंट आहे जो मानवी क्लायंटच्या मागणीच्या स्वरूपाची नक्कल करण्यासाठी पुनरावलोकन करतो आणि सुधारणा सुचवतो.

AI जज आणि व्यावसायिक सॉफ्टवेअरच्या मर्यादा

या प्रगतीनंतरही, अहवाल एका गंभीर अडथळ्यावर प्रकाश टाकतो: AI एजंट्सना अजूनही व्यावसायिक अचूकतेच्या "last mile" (अंतिम टप्प्यातील अचूकता) साठी संघर्ष करावा लागत आहे. उदाहरणार्थ, आर्किटेक्चरच्या कामात, GPT-5.5 ने आकर्षक व्हिज्युअल रेंडर्स तयार केले होते, परंतु त्यातील मूळ 3D भूमिती (geometry) मूलभूतपणे त्रुटीपूर्ण होती.

या अभ्यासाचा एक महत्त्वाचा निष्कर्ष असा आहे की, AI जज अजूनही मानवी मूल्यमापनकर्त्यांची जागा घेऊ शकत नाहीत. चाचणी दरम्यान असे दिसून आले की, AI जज खूपच उदार (lenient) होते; GPT-5.5 साठी, AI मूल्यमापनकर्त्याचा स्कोअर मानवी पडताळणीनुसार मिळालेल्या गुणवत्तेपेक्षा जवळपास तीन पटीने जास्त होता. हा फरक निर्माण होण्याचे कारण म्हणजे व्यावसायिक कामाचे खरे मूल्यमापन करण्यासाठी विशेष सॉफ्टवेअरसोबत सखोल संवाद साधण्याची क्षमता आवश्यक असते—ज्या क्षेत्रात सध्याचे AI एजंट्स अजूनही मोठ्या अडचणींचा सामना करत आहेत.

जसे एजंट्स साध्या चॅट इंटरफेसवरून जटिल ग्राफिकल प्रोग्राम्स चालवण्याकडे वळत आहेत, तसे डिजिटल अर्थव्यवस्थेत "काम" कसे परिभाषित केले जाते आणि कार्यान्वित केले जाते, यामध्ये उद्योग एक मूलभूत बदल पाहत आहे.

मुख्य निष्कर्ष

झपाट्याने वाढ: व्यावसायिक फ्रीलान्स कामांसाठी ऑटोमेशनचा सर्वोच्च दर आठ महिन्यांपेक्षा कमी कालावधीत २.५% वरून १६.१% पर्यंत वाढला आहे.
मॉडेलचे नेतृत्व: Fable 5 सध्या १६.१% ऑटोमेशन दरासह उद्योगाचे नेतृत्व करत आहे, जे Opus 4.8 (८.३%) आणि GPT-5.5 (६.३%) पेक्षा लक्षणीयरीत्या सरस आहे.
मानवी आवश्यकतेची गरज: मानवी मूल्यमापनकर्ते अजूनही आवश्यक आहेत, कारण AI जज खूपच उदार असतात आणि त्यांना विशेष सॉफ्टवेअर फाइल्समधील संरचनात्मक त्रुटी शोधण्याची क्षमता नसते.

AI एजंट्स आता व्यावसायिक दर्जासह फ्रीलान्स कामांपैकी १६% पूर्ण करत आहेत

AI एजंट्स आता १६% फ्रीलान्स कामे व्यावसायिक दर्जासह पूर्ण करत आहेत

रिमोट लेबर इंडेक्सचा (Remote Labor Index) झपाट्याने झालेला उदय

ऑटोमेशनच्या नवीन क्षितिजाचे नेतृत्व Fable 5 करत आहे

AI जज आणि व्यावसायिक सॉफ्टवेअरच्या मर्यादा

मुख्य निष्कर्ष

Continue reading

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

एजेंटिक एआयचा उदय: तंत्रज्ञान पथके ऑटोमेशनच्या क्षेत्रात नेतृत्व का करत आहेत

मानक AI बेंचमार्क पद्धतशीरपणे एजंटची क्षमता कमी का लेखतात?