సాధారణ AI బెంచ్‌మార్క్‌లు ఏజెంట్ సామర్థ్యాలను క్రమబద్ధంగా ఎందుకు తక్కువ అంచనా వేస్తాయి?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial22 గంటల క్రితం3min read

సాధారణ AI బెంచ్‌మార్క్‌లు ఏజెంట్ సామర్థ్యాలను క్రమబద్ధంగా ఎందుకు తక్కువ అంచనా వేస్తాయి?

In this article

ప్రామాణిక AI బెంచ్‌మార్క్‌లు ఏజెంట్ సామర్థ్యాలను ఎందుకు క్రమబద్ధంగా తక్కువగా అంచనా వేస్తున్నాయి

ప్రస్తుత AI మూల్యాంకన పద్ధతులు ఫ్రాంటియర్ మోడల్స్ (frontier models) యొక్క నిజమైన సామర్థ్యాన్ని గుర్తించడంలో విఫలమవుతున్నాయి, తరచుగా కంప్యూటేషనల్ బడ్జెట్ లేకపోవడాన్ని తెలివితేటల లోపంగా పొరబడుతున్నాయి. AI ఏజెంట్ పనితీరు అనేది ఒక స్థిరమైన స్కోరు కాదని, టెస్ట్-టైమ్ కంప్యూట్ (test-time compute) పెరిగే కొద్దీ వేగంగా పెరిగే స్కేలింగ్ కర్వ్ అని UK యొక్క AI Security Institute (AISI) వెల్లడించింది.

కంప్యూట్-సామర్థ్య కర్వ్ (The Compute-Capability Curve)

AISI పరిశోధనలోని ప్రధాన అంశం ఏమిటంటే, ఒక AI ఏజెంట్ యొక్క విజయ రేటు దాని "టెస్ట్-టైమ్ కంప్యూట్"తో విడదీయలేనంతగా ముడిపడి ఉంటుంది—అంటే ఒక పనిని చేసేటప్పుడు ఏజెంట్‌కు అనుమతించబడే ప్రాసెసింగ్ పవర్ మరియు టోకెన్ల పరిమాణం. పరిశోధకులు మూల్యాంకనాల్లో స్థిరమైన బడ్జెట్ పరిమితులను విధించినప్పుడు, వారు మోడల్ యొక్క గరిష్ట సామర్థ్యాన్ని కాకుండా, దాని కనిష్ట సామర్థ్యాన్ని మాత్రమే కొలుస్తున్నారు.

ఈ దృగ్విషయం అనేక కీలక రంగాలలో కనిపిస్తుంది. TerminalBench 2.0 మరియు SWE-Bench Pro వంటి బెంచ్‌మార్క్‌లను ఉపయోగించే సాఫ్ట్‌వేర్ ఇంజనీరింగ్ పనులలో, టోకెన్ బడ్జెట్‌ను ఒక మిలియన్ నుండి పది మిలియన్లకు పెంచినప్పుడు విజయ రేట్లు సుమారు 25% పెరిగాయి. అదేవిధంగా, "Humanity's Last Exam"లో గణిత మరియు విద్యాపరమైన పనులలో బడ్జెట్ ఐదు మిలియన్ టోకెన్లకు చేరుకున్నప్పుడు 22% లాభం కనిపించింది.

మానవుల వర్సెస్ AI టాస్క్ టైమ్ యొక్క పవర్ లా (The Power Law of Human vs. AI Task Time)

ఒక పని కోసం మానవ నిపుణుడికి అవసరమయ్యే సమయానికి మరియు AI ఏజెంట్‌కు అవసరమయ్యే టోకెన్ వినియోగానికి మధ్య ప్రత్యక్ష సంబంధం ఉందని ఈ అధ్యయనం నిరూపించింది. ఈ సంబంధం ఒక పవర్ లా (power law)ను అనుసరిస్తుంది: ఒక మనిషికి ఒక నిమిషం పట్టే పని ఏజెంట్‌కు వేల సంఖ్యలో టోకెన్ల ఖర్చుతో కూడుతుంది, అదే ఒక గంట పట్టే పనికి మిలియన్ల టోకెన్లు ఖర్చవుతాయి.

ఇది ప్రస్తుత పరీక్షల్లో ఒక పెద్ద లోపాన్ని (blind spot) సృష్టిస్తుంది. ఉదాహరణకు, AISI సైబర్‌సెక్యూరిటీ టాస్క్ "The Last Ones"కు సుమారు 20 గంటల మానవ నైపుణ్యం అవసరం. ఇన్‌స్టిట్యూట్ పరీక్షించిన ఏ మోడల్ కూడా 30 మిలియన్ల కంటే తక్కువ టోకెన్లతో ఈ పనిని పూర్తి చేయలేకపోయింది. ప్రామాణికమైన, తక్కువ బడ్జెట్ మూల్యాంకనాలను ఉపయోగించడం ద్వారా, పరిశోధకులు అత్యంత సంక్లిష్టమైన మరియు కీలకమైన పనులను కొలత ప్రక్రియ నుండి వాస్తవానికి మినహాయించేస్తున్నారు.

వేగవంతమైన పురోగతి మరియు మెరుగుదల యొక్క మూడు అక్షాలు (The Three Axes of Improvement)

ఫ్రాంటియర్ మోడల్స్ యొక్క "టైమ్ హారిజన్" (time horizon)—అంటే అవి నిర్వహించగల పనుల సంక్లిష్టత—గతంలో అనుకున్నదానికంటే చాలా వేగంగా విస్తరిస్తోందని AISI పేర్కొంది. స్థిరమైన 2.5 మిలియన్ టోకెన్ బడ్జెట్‌తో సైబర్ పనుల కోసం టైమ్ హారిజన్ ప్రతి 4.7 నెలలకు ఒకసారి రెట్టింపు అవుతుందని మునుపటి అంచనాలు సూచించగా, అధిక బడ్జెట్‌లలో ఆ రేటు గణనీయంగా పెరుగుతుంది. 50 మిలియన్ టోకెన్ల వద్ద, రెట్టింపు అయ్యే రేటు ప్రతి 40 నుండి 50 రోజులకు ఒకసారిగా వేగవంతమవుతుంది.

కొత్త మోడల్స్ (పరీక్షించబడిన GPT మరియు Claude సిరీస్‌ల వంటివి) మూడు నిర్దిష్ట కొలతలలో మెరుగుదలని చూపుతున్నాయి:

Reach (వ్యాప్తి): రోజురోజుకూ కష్టతరమైన పనులను ఎదుర్కోగల సామర్థ్యం.
Reliability (విశ్వసనీయత): ఒకే పనిని మరింత స్థిరంగా పూర్తి చేయగల సామర్థ్యం.
Efficiency (సామర్థ్యం): తక్కువ టోకెన్లను ఉపయోగించి పనులను పూర్తి చేయగల సామర్థ్యం.

AI భద్రత మరియు విస్తరణపై ప్రభావం (Implications for AI Safety and Deployment)

ఈ పరిశోధన AI మూల్యాంకన పద్ధతిని "స్థిరమైన స్కోర్లు" నుండి "కంప్యూట్-అవేర్ కర్వ్స్" (compute-aware curves) వైపు మారుస్తుంది. డెవలపర్‌లు మరియు వ్యవస్థాపకులకు (founders), దీని అర్థం ఏమిటంటే ఒక మోడల్ యొక్క ఉపయోగం అనేది కేవలం దాని శిక్షణ (training) మీద మాత్రమే కాకుండా, విస్తరణ (deployment) సమయంలో ఎంత ఇన్ఫరెన్స్ కంప్యూట్ (inference compute) కేటాయించబడింది అనే దానిపై కూడా ఆధారపడి ఉంటుంది.

టోకెన్ ధర నిరంతరం తగ్గుతున్న కొద్దీ, గతంలో ఆర్థికంగా సాధ్యం కాదనిపించిన సామర్థ్యాలు ప్రామాణికంగా మారుతాయి. AI భద్రత మరియు రక్షణ విషయానికి వస్తే, నియంత్రణ సంస్థలు మరియు కంపెనీలు సాంప్రదాయక, తక్కువ బడ్జెట్ బెంచ్‌మార్క్‌లపై ఆధారపడితే, స్వయంప్రతిపత్తి కలిగిన ఏజెంట్లకు (autonomous agents) సంబంధించిన ప్రమాదాలు—అంటే సంక్లిష్టమైన సైబర్ దాడులు వంటివి—చాలా తక్కువగా అంచనా వేయబడవచ్చు.

ముఖ్య అంశాలు (Key Takeaways)

బెంచ్‌మార్క్‌లు తప్పుదారి పట్టించవచ్చు: స్థిరమైన టోకెన్ బడ్జెట్‌లు మోడల్ యొక్క కనిష్ట పనితీరును మాత్రమే చూపుతాయి, తద్వారా AI ఏజెంట్లు సాధించగల గరిష్ట సామర్థ్యాన్ని క్రమబద్ధంగా తక్కువగా అంచనా వేస్తాయి.
కంప్యూట్ సామర్థ్యాన్ని పెంచుతుంది: టెస్ట్-టైమ్ కంప్యూట్ బడ్జెట్ పెరిగే కొద్దీ సాఫ్ట్‌వేర్ ఇంజనీరింగ్ మరియు గణితంలో విజయ రేట్లు గణనీయంగా పెరుగుతాయి.
"రెట్టింపు" రేటు వేగవంతమవుతోంది: అధిక కంప్యూట్ బడ్జెట్‌లలో, ఫ్రాంటియర్ మోడల్స్ సంక్లిష్టమైన పనులను నేర్చుకునే రేటు గతంలో అంచనా వేసిన దానికంటే చాలా వేగంగా ఉంటుంది.

సాధారణ AI బెంచ్‌మార్క్‌లు ఏజెంట్ సామర్థ్యాలను క్రమబద్ధంగా ఎందుకు తక్కువ అంచనా వేస్తాయి?

ప్రామాణిక AI బెంచ్‌మార్క్‌లు ఏజెంట్ సామర్థ్యాలను ఎందుకు క్రమబద్ధంగా తక్కువగా అంచనా వేస్తున్నాయి

కంప్యూట్-సామర్థ్య కర్వ్ (The Compute-Capability Curve)

మానవుల వర్సెస్ AI టాస్క్ టైమ్ యొక్క పవర్ లా (The Power Law of Human vs. AI Task Time)

వేగవంతమైన పురోగతి మరియు మెరుగుదల యొక్క మూడు అక్షాలు (The Three Axes of Improvement)

AI భద్రత మరియు విస్తరణపై ప్రభావం (Implications for AI Safety and Deployment)

ముఖ్య అంశాలు (Key Takeaways)

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI ఏజెంట్ మూల్యాంకనం చాలా త్వరగా ముగిసిపోతుంది

ఏజెంటిక్ AI ఆవిర్భావం: ఆటోమేషన్ రంగంలో సాంకేతిక బృందాలు ఎందుకు ముందంజలో ఉన్నాయి?

Why Frontier AI Models Fail Financial Triage Tests