AI ఏజెంట్లు ఇప్పుడు 16% ఫ్రీలాన్స్ పనులను వృత్తిపరమైన నాణ్యతతో పూర్తి చేస్తున్నాయి
AI ఏజెంట్లు సంక్లిష్టమైన, వాణిజ్యపరంగా విలువైన పనులను నిర్వహించడంలో పెరుగుతున్న సామర్థ్యాన్ని ప్రదర్శిస్తుండటంతో, రిమోట్ లేబర్ (దూర ప్రాంతాల నుండి చేసే పని) రంగం అద్భుతమైన వేగంతో మారుతోంది. వృత్తిపరమైన స్థాయి ఫ్రీలాన్స్ పనుల కోసం అత్యధిక ఆటోమేషన్ రేటు ఎనిమిది నెలల కంటే తక్కువ కాలంలోనే నాలుగు రెట్లు పెరిగిందని కొత్త డేటా వెల్లడిస్తోంది.
రిమోట్ లేబర్ ఇండెక్స్ (Remote Labor Index) వేగవంతమైన పెరుగుదల
Scale Labs సహకారంతో Center for AI Safety (CAIS) అభివృద్ధి చేసిన బెంచ్మార్క్ అయిన Remote Labor Index (RLI), AI ఏజెంట్లు చెల్లింపు క్లయింట్లకు ఆమోదయోగ్యమైన నాణ్యతతో ఫ్రీలాన్స్ ప్రాజెక్ట్లను ఎంత తరచుగా పూర్తి చేస్తున్నాయో ట్రాక్ చేస్తుంది. సాధారణ టెక్స్ట్ జనరేషన్ బెంచ్మార్క్ల వలె కాకుండా, RLI అనేది 3D/CAD, ఆర్కిటెక్చర్, గ్రాఫిక్ డిజైన్, వీడియో యానిమేషన్, ఆడియో ఇంజనీరింగ్ మరియు వెబ్ యాప్ డెవలప్మెంట్ వంటి కీలకమైన రంగాలపై దృష్టి పెడుతుంది.
ఈ అధ్యయనం 358 ధృవీకరించబడిన ఫ్రీలాన్సర్ల నుండి సేకరించిన మొత్తం $144,000 విలువైన 240 ప్రాజెక్ట్లను విశ్లేషించింది. ఫలితాలు సామర్థ్యంలో భారీ వృద్ధిని చూపుతున్నాయి: కేవలం ఎనిమిది నెలల క్రితం, అత్యధిక ఆటోమేషన్ రేటు కేవలం 2.5 శాతంగా మాత్రమే ఉంది. నేడు, అది 16.1 శాతానికి చేరుకుంది.
ఆటోమేషన్ యొక్క కొత్త సరిహద్దులో Fable 5 అగ్రస్థానంలో
తాజా RLI ఫలితాలు మోడల్ పనితీరులో గణనీయమైన పెరుగుదలను నొక్కి చెబుతున్నాయి, ఇందులో Fable 5 ప్రస్తుత నాయకుడిగా అవతరించింది. Fable 5 16.1 శాతం ఆటోమేషన్ రేటును సాధించింది, ఇది దాని అతి దగ్గరి ప్రత్యర్థి Opus 4.8 (8.3 శాతం) పనితీరు కంటే దాదాపు రెట్టింపు. GPT-5.5 కూడా 6.3 శాతంతో గమనించదగ్గ పనితీరును కనబరిచింది.
ఈ వేగవంతమైన పురోగతి ప్రత్యేకమైన ఏజెంటిక్ వర్క్ఫ్లోల (agentic workflows) వేగంగా పెరుగుతున్న సామర్థ్యాలను నొక్కి చెబుతుంది. ఈ ఫలితాలను సాధించడానికి, టెస్టింగ్ ఎన్విరాన్మెంట్ Blender, GIMP మరియు Audacity వంటి 30 కంటే ఎక్కువ ప్రొఫెషనల్ అప్లికేషన్లతో కూడిన వర్చువల్ Linux మెషీన్లను ఉపయోగిస్తుంది. ప్రతి ప్రాజెక్ట్కు ఏజెంట్లకు 24 గంటల కంప్యూట్ సమయం ఇవ్వబడుతుంది మరియు అవి "critic loop"ను ఉపయోగిస్తాయి—ఇది మానవ క్లయింట్ యొక్క కఠినమైన స్వభావాన్ని అనుకరించడానికి రివ్యూలు మరియు సవరణలను సూచించే రెండవ AI ఏజెంట్.
AI జడ్జీలు మరియు ప్రొఫెషనల్ సాఫ్ట్వేర్ల పరిమితులు
ఈ పురోగతి ఉన్నప్పటికీ, నివేదిక ఒక కీలకమైన అడ్డంకిని ఎత్తిచూపుతోంది: వృత్తిపరమైన ఖచ్చితత్వంలో "చివరి దశ" (last mile) విషయంలో AI ఏజెంట్లు ఇంకా ఇబ్బంది పడుతున్నాయి. ఉదాహరణకు, ఆర్కిటెక్చర్ పనులలో, GPT-5.5 ఆకర్షణీయమైన విజువల్ రెండర్లను రూపొందించినప్పటికీ, దానిలోని ప్రాథమిక 3D జ్యామితి (geometry) లోపభూయిష్టంగా ఉన్నట్లు గుర్తించబడింది.
ఈ అధ్యయనం యొక్క ముఖ్యమైన అంశం ఏమిటంటే, AI జడ్జీలు ఇంకా మానవ మూల్యాంకనాలను (human evaluators) భర్తీ చేయలేవు. పరీక్షించినప్పుడు, AI జడ్జీలు చాలా ఉదారంగా వ్యవహరిస్తున్నట్లు తేలింది; GPT-5.5 విషయంలో, AI మూల్యాంకన స్కోరు మానవ ధృవీకరించిన నాణ్యత కంటే దాదాపు మూడు రెట్లు ఎక్కువగా ఉంది. వృత్తిపరమైన పనిని నిజంగా అంచనా వేయడానికి ప్రత్యేక సాఫ్ట్వేర్లతో లోతుగా ఇంటరాక్ట్ అయ్యే సామర్థ్యం అవసరం—ఈ విషయంలో ప్రస్తుత AI ఏజెంట్లు ఇంకా గణనీయమైన సవాళ్లను ఎదుర్కొంటున్నాయి.
ఏజెంట్లు సాధారణ చాట్ ఇంటర్ఫేస్ల నుండి సంక్లిష్టమైన గ్రాఫికల్ ప్రోగ్రామ్లను నిర్వహించే స్థాయికి చేరుతున్న కొద్దీ, డిజిటల్ ఆర్థిక వ్యవస్థలో "పని"ని ఎలా నిర్వచించాలో మరియు ఎలా అమలు చేయాలో అనే అంశంలో పరిశ్రమ ఒక ప్రాథమిక మార్పును చూస్తోంది.
ముఖ్య అంశాలు
- అతివేగ వృద్ధి: వృత్తిపరమైన ఫ్రీలాన్స్ పనుల కోసం అత్యధిక ఆటోమేషన్ రేటు ఎనిమిది నెలల కంటే తక్కువ కాలంలో 2.5% నుండి 16.1%కి పెరిగింది.
- మోడల్ నాయకత్వం: Fable 5 ప్రస్తుతం 16.1% ఆటోమేషన్ రేటుతో పరిశ్రమలో అగ్రస్థానంలో ఉంది, ఇది Opus 4.8 (8.3%) మరియు GPT-5.5 (6.3%) కంటే గణనీయంగా మెరుగ్గా ఉంది.
- మానవ అవసరం: AI జడ్జీలు చాలా ఉదారంగా ఉండటం మరియు ప్రత్యేక సాఫ్ట్వేర్ ఫైల్లలోని నిర్మాణ లోపాలను గుర్తించలేకపోవడం వల్ల, మానవ మూల్యాంకనకర్తలు ఇప్పటికీ అత్యవసరం.
