నిపుణుల స్థాయి పనులలో AI ఏజెంట్లు 0% స్కోరు సాధించాయి

AI ఏజెంట్లు నిపుణుల స్థాయి పనులలో విఫలమయ్యాయి.

ALE బెంచ్‌మార్క్ వృత్తిపరమైన పనులపై అత్యుత్తమ మోడళ్లను పరీక్షించింది. ఈ పనులకు నిజమైన నైపుణ్యం అవసరం. ఇవి కేవలం ఒక PDFని సారాంశం చేయడం వంటి సాధారణ పనులు కావు.

ఫలితాలు స్పష్టంగా ఉన్నాయి. Fable 5 మరియు GPT-5.5 వంటి మోడళ్లు అత్యంత కష్టమైన నిపుణుల స్థాయి సమస్యలపై 0% స్కోరు సాధించాయి. ఒక నాణెం వేయడం (coin flip) కూడా దీనికంటే మెరుగ్గా పనిచేస్తుంది.

మధ్యస్థ స్థాయి పనులలో కూడా పనితీరు తక్కువగా ఉంది. అత్యుత్తమ ఏజెంట్లు కూడా కేవలం 15% నుండి 21% విజయ రేటును మాత్రమే చేరుకోగలిగాయి.

AI ఏజెంట్ల గురించి ప్రచారంలో (hype) ఉన్నంత గొప్పవి అవి కావు.

ఏజెంట్లు విమాన టిక్కెట్లు బుక్ చేయడం లేదా కోడ్ రాయడం వంటి వీడియోలను మీరు చూస్తుంటారు. ఈ డెమోలు చూడటానికి అద్భుతంగా ఉంటాయి. కానీ డెమోలు ఎంపిక చేసినవి (curated). బెంచ్‌మార్క్‌లు అలా కావు.

ఒక డెమోకు మరియు వాస్తవ వినియోగానికి (real deployment) మధ్య భారీ వ్యత్యాసం ఉంది. అనేక బృందాలు లేని నైపుణ్యాల ఆధారంగా ఉత్పత్తి నిర్ణయాలు తీసుకుంటున్నాయి. వారు ఏజెంట్ల ద్వారా మొత్తం వర్క్‌ఫ్లోలను నిర్వహించాలని ప్లాన్ చేస్తున్నారు. ఇది ఒక పొరపాటు.

డేటా ఏమి చెబుతుందంటే:

  • ఏజెంట్లు మధ్యస్థ స్థాయి పనులకు సహాయకులుగా బాగా పనిచేస్తాయి.
  • నిపుణుల స్థాయి స్వయంప్రతిపత్తి (Expert autonomy) ఇంకా రాలేదు.
  • డెమోల కంటే బెంచ్‌మార్క్‌లు మరింత నమ్మదగినవి.

మీరు ఈరోజు ఏజెంట్లతో ఏదైనా నిర్మిస్తుంటే, వాటి ప్రస్తుత పరిమితులను దృష్టిలో ఉంచుకుని నిర్మించండి. ఒక వక్త త్వరలో జరుగుతుందని వాగ్దానం చేసే దాని కోసం నిర్మించకండి.

పరిశ్రమ ఈ ఫలితాలను విస్మరిస్తోంది. ప్రజలు డేటా ఆధారంగా కాకుండా ప్రచారాల (hype) ఆధారంగా రోడ్‌మ్యాప్‌లను రూపొందిస్తున్నారు.

మీరు మీ ఉత్పత్తిలో ఏజెంట్లను ఉపయోగిస్తుంటే, వాటిని జూనియర్ డెవలపర్‌లలాగా పరిగణించండి. అవి స్పష్టమైన నియమాలతో కూడిన చిన్న పనులపై పనిచేస్తాయి. పర్యవేక్షణ లేని సంక్లిష్టమైన పనులలో అవి విఫలమవుతాయి.

ఈ నియమాలను పాటించండి:

  • కీలకమైన పనుల కోసం మనిషి పర్యవేక్షణను (human in the loop) తప్పనిసరిగా ఉంచండి.
  • ఏజెంట్లకు చాలా పరిమితమైన (narrow) పనులను మాత్రమే ఇవ్వండి.
  • మీ వాస్తవ పనిభారం (workload) ఆధారంగా పనితీరును కొలవండి.

ఒక వాస్తవిక దృక్పథం (pragmatic approach) ప్రచారాల కంటే తక్కువ ఆసక్తికరంగా ఉండవచ్చు, కానీ అది పని చేసే సాఫ్ట్‌వేర్‌ను అందిస్తుంది.

ఏజెంట్లు కేవలం సాధనాలు మాత్రమే. అవి స్వయంప్రతిపత్తి కలిగిన శ్రామిక శక్తి కాదు. వాస్తవికతను దృష్టిలో ఉంచుకుని నిర్మించండి.

బృందాలు డెలివరీ చేయడానికి ప్రయత్నించే ఏజెంట్ సామర్థ్యాలలో మీరు చూసిన అత్యంత అతిశయోక్తి (overhyped) సామర్థ్యం ఏది? మీ కథనాలను క్రింద పంచుకోండి.

మూలం: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi