AI ఏజెంట్లు ఇప్పుడు 16% ఫ్రీలాన్స్ పనులను వృత్తిపరమైన నాణ్యతతో పూర్తి చేస్తున్నాయి

Translated for your language. Read the original.

AI-assisted draft.

In this article

AI ఏజెంట్లు ఇప్పుడు 16% ఫ్రీలాన్స్ పనులను వృత్తిపరమైన నాణ్యతతో పూర్తి చేస్తున్నాయి

AI ఏజెంట్లు సంక్లిష్టమైన, వాణిజ్యపరంగా విలువైన పనులను నిర్వహించడంలో పెరుగుతున్న సామర్థ్యాన్ని ప్రదర్శిస్తుండటంతో, రిమోట్ లేబర్ (దూర ప్రాంతాల నుండి చేసే పని) రంగం అద్భుతమైన వేగంతో మారుతోంది. వృత్తిపరమైన స్థాయి ఫ్రీలాన్స్ పనుల కోసం అత్యధిక ఆటోమేషన్ రేటు ఎనిమిది నెలల కంటే తక్కువ కాలంలోనే నాలుగు రెట్లు పెరిగిందని కొత్త డేటా వెల్లడిస్తోంది.

రిమోట్ లేబర్ ఇండెక్స్ (Remote Labor Index) వేగవంతమైన పెరుగుదల

Scale Labs సహకారంతో Center for AI Safety (CAIS) అభివృద్ధి చేసిన బెంచ్‌మార్క్ అయిన Remote Labor Index (RLI), AI ఏజెంట్లు చెల్లింపు క్లయింట్‌లకు ఆమోదయోగ్యమైన నాణ్యతతో ఫ్రీలాన్స్ ప్రాజెక్ట్‌లను ఎంత తరచుగా పూర్తి చేస్తున్నాయో ట్రాక్ చేస్తుంది. సాధారణ టెక్స్ట్ జనరేషన్ బెంచ్‌మార్క్‌ల వలె కాకుండా, RLI అనేది 3D/CAD, ఆర్కిటెక్చర్, గ్రాఫిక్ డిజైన్, వీడియో యానిమేషన్, ఆడియో ఇంజనీరింగ్ మరియు వెబ్ యాప్ డెవలప్‌మెంట్ వంటి కీలకమైన రంగాలపై దృష్టి పెడుతుంది.

ఈ అధ్యయనం 358 ధృవీకరించబడిన ఫ్రీలాన్సర్ల నుండి సేకరించిన మొత్తం $144,000 విలువైన 240 ప్రాజెక్ట్‌లను విశ్లేషించింది. ఫలితాలు సామర్థ్యంలో భారీ వృద్ధిని చూపుతున్నాయి: కేవలం ఎనిమిది నెలల క్రితం, అత్యధిక ఆటోమేషన్ రేటు కేవలం 2.5 శాతంగా మాత్రమే ఉంది. నేడు, అది 16.1 శాతానికి చేరుకుంది.

ఆటోమేషన్ యొక్క కొత్త సరిహద్దులో Fable 5 అగ్రస్థానంలో

తాజా RLI ఫలితాలు మోడల్ పనితీరులో గణనీయమైన పెరుగుదలను నొక్కి చెబుతున్నాయి, ఇందులో Fable 5 ప్రస్తుత నాయకుడిగా అవతరించింది. Fable 5 16.1 శాతం ఆటోమేషన్ రేటును సాధించింది, ఇది దాని అతి దగ్గరి ప్రత్యర్థి Opus 4.8 (8.3 శాతం) పనితీరు కంటే దాదాపు రెట్టింపు. GPT-5.5 కూడా 6.3 శాతంతో గమనించదగ్గ పనితీరును కనబరిచింది.

ఈ వేగవంతమైన పురోగతి ప్రత్యేకమైన ఏజెంటిక్ వర్క్‌ఫ్లోల (agentic workflows) వేగంగా పెరుగుతున్న సామర్థ్యాలను నొక్కి చెబుతుంది. ఈ ఫలితాలను సాధించడానికి, టెస్టింగ్ ఎన్విరాన్మెంట్ Blender, GIMP మరియు Audacity వంటి 30 కంటే ఎక్కువ ప్రొఫెషనల్ అప్లికేషన్‌లతో కూడిన వర్చువల్ Linux మెషీన్‌లను ఉపయోగిస్తుంది. ప్రతి ప్రాజెక్ట్‌కు ఏజెంట్లకు 24 గంటల కంప్యూట్ సమయం ఇవ్వబడుతుంది మరియు అవి "critic loop"ను ఉపయోగిస్తాయి—ఇది మానవ క్లయింట్ యొక్క కఠినమైన స్వభావాన్ని అనుకరించడానికి రివ్యూలు మరియు సవరణలను సూచించే రెండవ AI ఏజెంట్.

AI జడ్జీలు మరియు ప్రొఫెషనల్ సాఫ్ట్‌వేర్‌ల పరిమితులు

ఈ పురోగతి ఉన్నప్పటికీ, నివేదిక ఒక కీలకమైన అడ్డంకిని ఎత్తిచూపుతోంది: వృత్తిపరమైన ఖచ్చితత్వంలో "చివరి దశ" (last mile) విషయంలో AI ఏజెంట్లు ఇంకా ఇబ్బంది పడుతున్నాయి. ఉదాహరణకు, ఆర్కిటెక్చర్ పనులలో, GPT-5.5 ఆకర్షణీయమైన విజువల్ రెండర్‌లను రూపొందించినప్పటికీ, దానిలోని ప్రాథమిక 3D జ్యామితి (geometry) లోపభూయిష్టంగా ఉన్నట్లు గుర్తించబడింది.

ఈ అధ్యయనం యొక్క ముఖ్యమైన అంశం ఏమిటంటే, AI జడ్జీలు ఇంకా మానవ మూల్యాంకనాలను (human evaluators) భర్తీ చేయలేవు. పరీక్షించినప్పుడు, AI జడ్జీలు చాలా ఉదారంగా వ్యవహరిస్తున్నట్లు తేలింది; GPT-5.5 విషయంలో, AI మూల్యాంకన స్కోరు మానవ ధృవీకరించిన నాణ్యత కంటే దాదాపు మూడు రెట్లు ఎక్కువగా ఉంది. వృత్తిపరమైన పనిని నిజంగా అంచనా వేయడానికి ప్రత్యేక సాఫ్ట్‌వేర్‌లతో లోతుగా ఇంటరాక్ట్ అయ్యే సామర్థ్యం అవసరం—ఈ విషయంలో ప్రస్తుత AI ఏజెంట్లు ఇంకా గణనీయమైన సవాళ్లను ఎదుర్కొంటున్నాయి.

ఏజెంట్లు సాధారణ చాట్ ఇంటర్‌ఫేస్‌ల నుండి సంక్లిష్టమైన గ్రాఫికల్ ప్రోగ్రామ్‌లను నిర్వహించే స్థాయికి చేరుతున్న కొద్దీ, డిజిటల్ ఆర్థిక వ్యవస్థలో "పని"ని ఎలా నిర్వచించాలో మరియు ఎలా అమలు చేయాలో అనే అంశంలో పరిశ్రమ ఒక ప్రాథమిక మార్పును చూస్తోంది.

ముఖ్య అంశాలు

అతివేగ వృద్ధి: వృత్తిపరమైన ఫ్రీలాన్స్ పనుల కోసం అత్యధిక ఆటోమేషన్ రేటు ఎనిమిది నెలల కంటే తక్కువ కాలంలో 2.5% నుండి 16.1%కి పెరిగింది.
మోడల్ నాయకత్వం: Fable 5 ప్రస్తుతం 16.1% ఆటోమేషన్ రేటుతో పరిశ్రమలో అగ్రస్థానంలో ఉంది, ఇది Opus 4.8 (8.3%) మరియు GPT-5.5 (6.3%) కంటే గణనీయంగా మెరుగ్గా ఉంది.
మానవ అవసరం: AI జడ్జీలు చాలా ఉదారంగా ఉండటం మరియు ప్రత్యేక సాఫ్ట్‌వేర్ ఫైల్‌లలోని నిర్మాణ లోపాలను గుర్తించలేకపోవడం వల్ల, మానవ మూల్యాంకనకర్తలు ఇప్పటికీ అత్యవసరం.

AI ఏజెంట్లు ఇప్పుడు 16% ఫ్రీలాన్స్ పనులను వృత్తిపరమైన నాణ్యతతో పూర్తి చేస్తున్నాయి

AI ఏజెంట్లు ఇప్పుడు 16% ఫ్రీలాన్స్ పనులను వృత్తిపరమైన నాణ్యతతో పూర్తి చేస్తున్నాయి

రిమోట్ లేబర్ ఇండెక్స్ (Remote Labor Index) వేగవంతమైన పెరుగుదల

ఆటోమేషన్ యొక్క కొత్త సరిహద్దులో Fable 5 అగ్రస్థానంలో

AI జడ్జీలు మరియు ప్రొఫెషనల్ సాఫ్ట్‌వేర్‌ల పరిమితులు

ముఖ్య అంశాలు

Continue reading

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

ఏజెంటిక్ AI ఆవిర్భావం: ఆటోమేషన్ రంగంలో సాంకేతిక బృందాలు ఎందుకు ముందంజలో ఉన్నాయి?

సాధారణ AI బెంచ్‌మార్క్‌లు ఏజెంట్ సామర్థ్యాలను క్రమబద్ధంగా ఎందుకు తక్కువ అంచనా వేస్తాయి?