New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

Translated for your language. Read the original.

AI-assisted draft.

మొన్న3min read

In this article

కొత్త AA-Briefcase బెంచ్‌మార్క్ నిజమైన నాలెడ్జ్ వర్క్‌తో AI ఎదుర్కొంటున్న సవాళ్లను వెల్లడించింది

లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMs) ప్రామాణిక మూల్యాంకనాల్లో (standard evaluations) రోజురోజుకూ సమర్థవంతంగా కనిపిస్తున్నప్పటికీ, వృత్తిపరమైన వాతావరణంలోని సంక్లిష్టతలకు అవి ప్రాథమికంగా సిద్ధంగా లేవని కొత్త డేటా సూచిస్తోంది. ఒక విప్లవాత్మకమైన బెంచ్‌మార్క్, ప్యాటర్న్ రికగ్నిషన్ (pattern recognition) మరియు బహుళ దశలతో కూడిన, సమాచారంతో నిండిన నాలెడ్జ్ వర్క్ యొక్క వాస్తవ అమలు మధ్య ఉన్న భారీ వ్యత్యాసాన్ని బయటపెట్టింది.

AA-Briefcase బెంచ్‌మార్క్: వాస్తవ ప్రపంచాన్ని అనుకరించడం

సాంప్రదాయ AI బెంచ్‌మార్క్‌లు తరచుగా విడిగా ఉండే ప్రశ్నలు లేదా స్టాటిక్ డేటాసెట్‌లపై ఆధారపడతాయి, ఇవి ఆధునిక కార్యాలయాల సంక్లిష్టమైన వాస్తవికతను ప్రతిబింబించవు. ఈ అంతరాన్ని పూరించడానికి, Artificial Analysis AA-Briefcase బెంచ్‌మార్క్‌ను పరిచయం చేసింది. ఇది సుదీర్ఘమైన, వారాల తరబడి సాగే ప్రాజెక్టులను అనుకరించడానికి రూపొందించబడిన ఒక కఠినమైన టెస్టింగ్ ఫ్రేమ్‌వర్క్.

సాధారణ ప్రాంప్ట్‌లకు బదులుగా, Slack త్రెడ్స్, ఈమెయిల్ చైన్‌లు, మీటింగ్ ట్రాన్స్‌క్రిప్ట్‌లు మరియు భారీ డేటా ఎక్స్‌పోర్ట్‌లతో సహా వేలాది విడివిడి సోర్స్ ఫైల్‌లను విశ్లేషించాల్సిన బాధ్యతను మోడల్‌లకు అప్పగిస్తారు. దీని కోసం మోడల్ ఉన్నత స్థాయి రీజనింగ్ (reasoning) చేయాలి, విభిన్న డేటా పాయింట్లను క్రోడీకరించాలి మరియు భారీ, అన్‌స్ట్రక్చర్డ్ డేటాసెట్‌ల మధ్య సందర్భాన్ని (context) కాపాడుకోవాలి — ఇవి అనలిస్టులు, లాయర్లు మరియు ఇంజనీర్లకు అత్యవసరమైన నైపుణ్యాలు.

అత్యుత్తమ మోడల్స్ కూడా ఎందుకు విఫలమవుతున్నాయి

పని ప్రదేశంలో తక్షణ AI స్వయంప్రతిపత్తిని (autonomy) ఆశించే వారికి ఈ ఫలితాలు దిగ్భ్రాంతిని కలిగిస్తున్నాయి. పరీక్షించబడిన అత్యంత అధునాతన మోడల్ అయిన Anthropic’s Claude Fable 5 కూడా అందించిన పనులలో కేవలం 3 శాతం పనులను మాత్రమే పూర్తిగా పూర్తి చేయగలిగింది. 91 నిర్దిష్ట పనులలో 31 పనుల విషయంలో, ఏ ఒక్క మోడల్ కూడా 50 శాతం పాస్ రేటును కూడా చేరుకోలేకపోయినట్లు ఈ బెంచ్‌మార్క్ వెల్లడించింది.

ఇంటెలిజెన్స్ పెరిగే కొద్దీ AI విఫలమయ్యే విధానంలో ఒక ఆసక్తికరమైన మార్పును ఈ పరిశోధన హైలైట్ చేస్తోంది. "బలహీనమైన" మోడల్స్ "loud" వైఫల్యాలను ఎదుర్కొంటాయి: అవి ప్రాథమిక అమలులో తడబడతాయి, సంబంధిత ఫైల్‌లను పూర్తిగా విస్మరిస్తాయి లేదా ప్రాథమికంగా ఉపయోగపడని అవుట్‌పుట్‌లను ఇస్తాయి. దీనికి విరుద్ధంగా, Claude Fable 5 వంటి "బలమైన" మోడల్స్ మరింత "quietly" విఫలమవుతాయి. ఈ హై-టైర్ మోడల్స్ స్పష్టమైన అవసరాలను తీరుస్తాయి మరియు ప్రొఫెషనల్ ఫార్మాటింగ్‌ను నిర్వహిస్తాయి, కానీ విడివిడి వనరుల నుండి సమాచారాన్ని క్రోడీకరించడం ద్వారా మాత్రమే తెలుసుకోగలిగే సూక్ష్మమైన వివరాలను గుర్తించలేకపోవడం వల్ల లోతైన రీజనింగ్ పరీక్షలో విఫలమవుతాయి.

AI పనితీరు యొక్క ఆర్థిక అసమానత

సాంకేతిక లోపాలతో పాటు, ప్రస్తుత LLM రంగంలో ఉన్న భారీ ఆర్థిక వ్యత్యాసాన్ని కూడా ఈ బెంచ్‌మార్క్ ఎత్తి చూపుతోంది. పనులను పూర్తి చేయడానికి అయ్యే ఖర్చును బట్టి చూస్తే, మోడల్‌ల మధ్య విస్మయపరిచే ధరల వ్యత్యాసం ఉంది.

సామర్థ్యం విపరీతంగా మారుతూ ఉంటుంది: DeepSeek V4 Flash సుమారు టాస్క్‌కు $0.04 ఖర్చుతో పనులను పూర్తి చేసింది, అయితే అత్యుత్తమ పనితీరు కనబరిచిన Claude Fable 5 ఖర్చు టాస్క్‌కు $31 కంటే ఎక్కువగా ఉంది. ఇది 800 రెట్లు ధర వ్యత్యాసాన్ని సూచిస్తుంది, ఇది స్థిరంగా లేని నిర్వహణ ఖర్చులను భరించకుండా AI ఏజెంట్లను విస్తరించాలని ప్రయత్నించే వ్యవస్థాపకులు మరియు సంస్థలకు ఒక పెద్ద సవాలుగా మారింది.

AI రంగంపై దీని ప్రభావాలు

AA-Briefcase పరిశోధనలు "AI ఏజెంట్" హైప్ సైకిల్‌కు ఒక వాస్తవికతను చూపుతున్నాయి. AI ఒక సంభాషణా సహాయకారి (conversational assistant) నుండి నమ్మదగిన నాలెడ్జ్ వర్కర్‌గా మారాలంటే, మోడల్స్ కేవలం సమాచారాన్ని వెలికితీయడం (retrieval) మాత్రమే కాకుండా, లోతైన, క్రాస్-కాంటెక్స్చువల్ సింథసిస్ (cross-contextual synthesis) వైపు పరిణామం చెందాలి. డెవలపర్లు మరియు టెక్ లీడర్లకు, లక్ష్యం కేవలం పారామీటర్ల సంఖ్యను పెంచడం మాత్రమే కాదు, ముక్కలు ముక్కలుగా ఉన్న, సుదీర్ఘమైన రీజనింగ్ టాస్క్‌లను (long-horizon reasoning tasks) అధిక ఖచ్చితత్వంతో మరియు తక్కువ అదనపు ఖర్చుతో (lower marginal costs) నిర్వహించే సామర్థ్యాన్ని మెరుగుపరచడం.

ముఖ్య అంశాలు

భారీ పనితీరు వ్యత్యాసం: Claude Fable 5 వంటి అత్యాధునిక (frontier) మోడల్స్ కూడా సంక్లిష్టమైన, బహుళ మూలాధారాల నాలెడ్జ్ టాస్క్‌లపై కేవలం 3% పూర్తి విజయ రేటును మాత్రమే సాధించగలవు.
లోపాల పరిణామం: తక్కువ స్థాయి మోడల్స్ ప్రాథమిక అమలులో విఫలమవుతుంటే, అధునాతన మోడల్స్ ముక్కలు ముక్కలుగా ఉన్న డేటాసెట్‌లలో దాగి ఉన్న సూక్ష్మమైన వివరాలను గుర్తించలేక "నిశ్శబ్ద" (quiet) లోపాల ద్వారా విఫలమవుతాయి.
అత్యధిక ఖర్చు వ్యత్యాసం: DeepSeek V4 Flash వంటి బడ్జెట్ ఫ్రెండ్లీ మోడల్స్ మరియు Claude Fable 5 వంటి ప్రీమియం మోడల్స్ మధ్య టాస్క్ అమలు ఖర్చులో 800 రెట్ల వ్యత్యాసం ఉంది.

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

కొత్త AA-Briefcase బెంచ్‌మార్క్ నిజమైన నాలెడ్జ్ వర్క్‌తో AI ఎదుర్కొంటున్న సవాళ్లను వెల్లడించింది

AA-Briefcase బెంచ్‌మార్క్: వాస్తవ ప్రపంచాన్ని అనుకరించడం

అత్యుత్తమ మోడల్స్ కూడా ఎందుకు విఫలమవుతున్నాయి

AI పనితీరు యొక్క ఆర్థిక అసమానత

AI రంగంపై దీని ప్రభావాలు

ముఖ్య అంశాలు

Continue reading

AI రీజనింగ్ ఒక సమతుల్య బిందువుగా

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

నిపుణుల పనులలో AI ఏజెంట్లు 0% స్కోరు సాధించాయి

AI సాంకేతికత ఉత్పత్తి దశలో విఫలమవుతోంది: AI సమన్వయ లోపాన్ని పూడ్చండి

స్కేలింగ్ పట్ల సందేహించేవారు AI అభివృద్ధిని అడ్డుకున్నారని సామ్ ఆల్ట్‌మాన్ పేర్కొన్నారు