కొత్త AA-Briefcase బెంచ్‌మార్క్ నిజమైన నాలెడ్జ్ వర్క్‌తో AI ఎదుర్కొంటున్న సవాళ్లను వెల్లడించింది

లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMs) ప్రామాణిక మూల్యాంకనాల్లో (standard evaluations) రోజురోజుకూ సమర్థవంతంగా కనిపిస్తున్నప్పటికీ, వృత్తిపరమైన వాతావరణంలోని సంక్లిష్టతలకు అవి ప్రాథమికంగా సిద్ధంగా లేవని కొత్త డేటా సూచిస్తోంది. ఒక విప్లవాత్మకమైన బెంచ్‌మార్క్, ప్యాటర్న్ రికగ్నిషన్ (pattern recognition) మరియు బహుళ దశలతో కూడిన, సమాచారంతో నిండిన నాలెడ్జ్ వర్క్ యొక్క వాస్తవ అమలు మధ్య ఉన్న భారీ వ్యత్యాసాన్ని బయటపెట్టింది.

AA-Briefcase బెంచ్‌మార్క్: వాస్తవ ప్రపంచాన్ని అనుకరించడం

సాంప్రదాయ AI బెంచ్‌మార్క్‌లు తరచుగా విడిగా ఉండే ప్రశ్నలు లేదా స్టాటిక్ డేటాసెట్‌లపై ఆధారపడతాయి, ఇవి ఆధునిక కార్యాలయాల సంక్లిష్టమైన వాస్తవికతను ప్రతిబింబించవు. ఈ అంతరాన్ని పూరించడానికి, Artificial Analysis AA-Briefcase బెంచ్‌మార్క్‌ను పరిచయం చేసింది. ఇది సుదీర్ఘమైన, వారాల తరబడి సాగే ప్రాజెక్టులను అనుకరించడానికి రూపొందించబడిన ఒక కఠినమైన టెస్టింగ్ ఫ్రేమ్‌వర్క్.

సాధారణ ప్రాంప్ట్‌లకు బదులుగా, Slack త్రెడ్స్, ఈమెయిల్ చైన్‌లు, మీటింగ్ ట్రాన్స్‌క్రిప్ట్‌లు మరియు భారీ డేటా ఎక్స్‌పోర్ట్‌లతో సహా వేలాది విడివిడి సోర్స్ ఫైల్‌లను విశ్లేషించాల్సిన బాధ్యతను మోడల్‌లకు అప్పగిస్తారు. దీని కోసం మోడల్ ఉన్నత స్థాయి రీజనింగ్ (reasoning) చేయాలి, విభిన్న డేటా పాయింట్లను క్రోడీకరించాలి మరియు భారీ, అన్‌స్ట్రక్చర్డ్ డేటాసెట్‌ల మధ్య సందర్భాన్ని (context) కాపాడుకోవాలి — ఇవి అనలిస్టులు, లాయర్లు మరియు ఇంజనీర్లకు అత్యవసరమైన నైపుణ్యాలు.

అత్యుత్తమ మోడల్స్ కూడా ఎందుకు విఫలమవుతున్నాయి

పని ప్రదేశంలో తక్షణ AI స్వయంప్రతిపత్తిని (autonomy) ఆశించే వారికి ఈ ఫలితాలు దిగ్భ్రాంతిని కలిగిస్తున్నాయి. పరీక్షించబడిన అత్యంత అధునాతన మోడల్ అయిన Anthropic’s Claude Fable 5 కూడా అందించిన పనులలో కేవలం 3 శాతం పనులను మాత్రమే పూర్తిగా పూర్తి చేయగలిగింది. 91 నిర్దిష్ట పనులలో 31 పనుల విషయంలో, ఏ ఒక్క మోడల్ కూడా 50 శాతం పాస్ రేటును కూడా చేరుకోలేకపోయినట్లు ఈ బెంచ్‌మార్క్ వెల్లడించింది.

ఇంటెలిజెన్స్ పెరిగే కొద్దీ AI విఫలమయ్యే విధానంలో ఒక ఆసక్తికరమైన మార్పును ఈ పరిశోధన హైలైట్ చేస్తోంది. "బలహీనమైన" మోడల్స్ "loud" వైఫల్యాలను ఎదుర్కొంటాయి: అవి ప్రాథమిక అమలులో తడబడతాయి, సంబంధిత ఫైల్‌లను పూర్తిగా విస్మరిస్తాయి లేదా ప్రాథమికంగా ఉపయోగపడని అవుట్‌పుట్‌లను ఇస్తాయి. దీనికి విరుద్ధంగా, Claude Fable 5 వంటి "బలమైన" మోడల్స్ మరింత "quietly" విఫలమవుతాయి. ఈ హై-టైర్ మోడల్స్ స్పష్టమైన అవసరాలను తీరుస్తాయి మరియు ప్రొఫెషనల్ ఫార్మాటింగ్‌ను నిర్వహిస్తాయి, కానీ విడివిడి వనరుల నుండి సమాచారాన్ని క్రోడీకరించడం ద్వారా మాత్రమే తెలుసుకోగలిగే సూక్ష్మమైన వివరాలను గుర్తించలేకపోవడం వల్ల లోతైన రీజనింగ్ పరీక్షలో విఫలమవుతాయి.

AI పనితీరు యొక్క ఆర్థిక అసమానత

సాంకేతిక లోపాలతో పాటు, ప్రస్తుత LLM రంగంలో ఉన్న భారీ ఆర్థిక వ్యత్యాసాన్ని కూడా ఈ బెంచ్‌మార్క్ ఎత్తి చూపుతోంది. పనులను పూర్తి చేయడానికి అయ్యే ఖర్చును బట్టి చూస్తే, మోడల్‌ల మధ్య విస్మయపరిచే ధరల వ్యత్యాసం ఉంది.

సామర్థ్యం విపరీతంగా మారుతూ ఉంటుంది: DeepSeek V4 Flash సుమారు టాస్క్‌కు $0.04 ఖర్చుతో పనులను పూర్తి చేసింది, అయితే అత్యుత్తమ పనితీరు కనబరిచిన Claude Fable 5 ఖర్చు టాస్క్‌కు $31 కంటే ఎక్కువగా ఉంది. ఇది 800 రెట్లు ధర వ్యత్యాసాన్ని సూచిస్తుంది, ఇది స్థిరంగా లేని నిర్వహణ ఖర్చులను భరించకుండా AI ఏజెంట్లను విస్తరించాలని ప్రయత్నించే వ్యవస్థాపకులు మరియు సంస్థలకు ఒక పెద్ద సవాలుగా మారింది.

AI రంగంపై దీని ప్రభావాలు

AA-Briefcase పరిశోధనలు "AI ఏజెంట్" హైప్ సైకిల్‌కు ఒక వాస్తవికతను చూపుతున్నాయి. AI ఒక సంభాషణా సహాయకారి (conversational assistant) నుండి నమ్మదగిన నాలెడ్జ్ వర్కర్‌గా మారాలంటే, మోడల్స్ కేవలం సమాచారాన్ని వెలికితీయడం (retrieval) మాత్రమే కాకుండా, లోతైన, క్రాస్-కాంటెక్స్చువల్ సింథసిస్ (cross-contextual synthesis) వైపు పరిణామం చెందాలి. డెవలపర్లు మరియు టెక్ లీడర్లకు, లక్ష్యం కేవలం పారామీటర్ల సంఖ్యను పెంచడం మాత్రమే కాదు, ముక్కలు ముక్కలుగా ఉన్న, సుదీర్ఘమైన రీజనింగ్ టాస్క్‌లను (long-horizon reasoning tasks) అధిక ఖచ్చితత్వంతో మరియు తక్కువ అదనపు ఖర్చుతో (lower marginal costs) నిర్వహించే సామర్థ్యాన్ని మెరుగుపరచడం.

ముఖ్య అంశాలు

  • భారీ పనితీరు వ్యత్యాసం: Claude Fable 5 వంటి అత్యాధునిక (frontier) మోడల్స్ కూడా సంక్లిష్టమైన, బహుళ మూలాధారాల నాలెడ్జ్ టాస్క్‌లపై కేవలం 3% పూర్తి విజయ రేటును మాత్రమే సాధించగలవు.
  • లోపాల పరిణామం: తక్కువ స్థాయి మోడల్స్ ప్రాథమిక అమలులో విఫలమవుతుంటే, అధునాతన మోడల్స్ ముక్కలు ముక్కలుగా ఉన్న డేటాసెట్‌లలో దాగి ఉన్న సూక్ష్మమైన వివరాలను గుర్తించలేక "నిశ్శబ్ద" (quiet) లోపాల ద్వారా విఫలమవుతాయి.
  • అత్యధిక ఖర్చు వ్యత్యాసం: DeepSeek V4 Flash వంటి బడ్జెట్ ఫ్రెండ్లీ మోడల్స్ మరియు Claude Fable 5 వంటి ప్రీమియం మోడల్స్ మధ్య టాస్క్ అమలు ఖర్చులో 800 రెట్ల వ్యత్యాసం ఉంది.