ప్రామాణిక AI బెంచ్మార్క్లు ఏజెంట్ సామర్థ్యాలను ఎందుకు క్రమబద్ధంగా తక్కువగా అంచనా వేస్తున్నాయి
ప్రస్తుత AI మూల్యాంకన పద్ధతులు ఫ్రాంటియర్ మోడల్స్ (frontier models) యొక్క నిజమైన సామర్థ్యాన్ని గుర్తించడంలో విఫలమవుతున్నాయి, తరచుగా కంప్యూటేషనల్ బడ్జెట్ లేకపోవడాన్ని తెలివితేటల లోపంగా పొరబడుతున్నాయి. AI ఏజెంట్ పనితీరు అనేది ఒక స్థిరమైన స్కోరు కాదని, టెస్ట్-టైమ్ కంప్యూట్ (test-time compute) పెరిగే కొద్దీ వేగంగా పెరిగే స్కేలింగ్ కర్వ్ అని UK యొక్క AI Security Institute (AISI) వెల్లడించింది.
కంప్యూట్-సామర్థ్య కర్వ్ (The Compute-Capability Curve)
AISI పరిశోధనలోని ప్రధాన అంశం ఏమిటంటే, ఒక AI ఏజెంట్ యొక్క విజయ రేటు దాని "టెస్ట్-టైమ్ కంప్యూట్"తో విడదీయలేనంతగా ముడిపడి ఉంటుంది—అంటే ఒక పనిని చేసేటప్పుడు ఏజెంట్కు అనుమతించబడే ప్రాసెసింగ్ పవర్ మరియు టోకెన్ల పరిమాణం. పరిశోధకులు మూల్యాంకనాల్లో స్థిరమైన బడ్జెట్ పరిమితులను విధించినప్పుడు, వారు మోడల్ యొక్క గరిష్ట సామర్థ్యాన్ని కాకుండా, దాని కనిష్ట సామర్థ్యాన్ని మాత్రమే కొలుస్తున్నారు.
ఈ దృగ్విషయం అనేక కీలక రంగాలలో కనిపిస్తుంది. TerminalBench 2.0 మరియు SWE-Bench Pro వంటి బెంచ్మార్క్లను ఉపయోగించే సాఫ్ట్వేర్ ఇంజనీరింగ్ పనులలో, టోకెన్ బడ్జెట్ను ఒక మిలియన్ నుండి పది మిలియన్లకు పెంచినప్పుడు విజయ రేట్లు సుమారు 25% పెరిగాయి. అదేవిధంగా, "Humanity's Last Exam"లో గణిత మరియు విద్యాపరమైన పనులలో బడ్జెట్ ఐదు మిలియన్ టోకెన్లకు చేరుకున్నప్పుడు 22% లాభం కనిపించింది.
మానవుల వర్సెస్ AI టాస్క్ టైమ్ యొక్క పవర్ లా (The Power Law of Human vs. AI Task Time)
ఒక పని కోసం మానవ నిపుణుడికి అవసరమయ్యే సమయానికి మరియు AI ఏజెంట్కు అవసరమయ్యే టోకెన్ వినియోగానికి మధ్య ప్రత్యక్ష సంబంధం ఉందని ఈ అధ్యయనం నిరూపించింది. ఈ సంబంధం ఒక పవర్ లా (power law)ను అనుసరిస్తుంది: ఒక మనిషికి ఒక నిమిషం పట్టే పని ఏజెంట్కు వేల సంఖ్యలో టోకెన్ల ఖర్చుతో కూడుతుంది, అదే ఒక గంట పట్టే పనికి మిలియన్ల టోకెన్లు ఖర్చవుతాయి.
ఇది ప్రస్తుత పరీక్షల్లో ఒక పెద్ద లోపాన్ని (blind spot) సృష్టిస్తుంది. ఉదాహరణకు, AISI సైబర్సెక్యూరిటీ టాస్క్ "The Last Ones"కు సుమారు 20 గంటల మానవ నైపుణ్యం అవసరం. ఇన్స్టిట్యూట్ పరీక్షించిన ఏ మోడల్ కూడా 30 మిలియన్ల కంటే తక్కువ టోకెన్లతో ఈ పనిని పూర్తి చేయలేకపోయింది. ప్రామాణికమైన, తక్కువ బడ్జెట్ మూల్యాంకనాలను ఉపయోగించడం ద్వారా, పరిశోధకులు అత్యంత సంక్లిష్టమైన మరియు కీలకమైన పనులను కొలత ప్రక్రియ నుండి వాస్తవానికి మినహాయించేస్తున్నారు.
వేగవంతమైన పురోగతి మరియు మెరుగుదల యొక్క మూడు అక్షాలు (The Three Axes of Improvement)
ఫ్రాంటియర్ మోడల్స్ యొక్క "టైమ్ హారిజన్" (time horizon)—అంటే అవి నిర్వహించగల పనుల సంక్లిష్టత—గతంలో అనుకున్నదానికంటే చాలా వేగంగా విస్తరిస్తోందని AISI పేర్కొంది. స్థిరమైన 2.5 మిలియన్ టోకెన్ బడ్జెట్తో సైబర్ పనుల కోసం టైమ్ హారిజన్ ప్రతి 4.7 నెలలకు ఒకసారి రెట్టింపు అవుతుందని మునుపటి అంచనాలు సూచించగా, అధిక బడ్జెట్లలో ఆ రేటు గణనీయంగా పెరుగుతుంది. 50 మిలియన్ టోకెన్ల వద్ద, రెట్టింపు అయ్యే రేటు ప్రతి 40 నుండి 50 రోజులకు ఒకసారిగా వేగవంతమవుతుంది.
కొత్త మోడల్స్ (పరీక్షించబడిన GPT మరియు Claude సిరీస్ల వంటివి) మూడు నిర్దిష్ట కొలతలలో మెరుగుదలని చూపుతున్నాయి:
- Reach (వ్యాప్తి): రోజురోజుకూ కష్టతరమైన పనులను ఎదుర్కోగల సామర్థ్యం.
- Reliability (విశ్వసనీయత): ఒకే పనిని మరింత స్థిరంగా పూర్తి చేయగల సామర్థ్యం.
- Efficiency (సామర్థ్యం): తక్కువ టోకెన్లను ఉపయోగించి పనులను పూర్తి చేయగల సామర్థ్యం.
AI భద్రత మరియు విస్తరణపై ప్రభావం (Implications for AI Safety and Deployment)
ఈ పరిశోధన AI మూల్యాంకన పద్ధతిని "స్థిరమైన స్కోర్లు" నుండి "కంప్యూట్-అవేర్ కర్వ్స్" (compute-aware curves) వైపు మారుస్తుంది. డెవలపర్లు మరియు వ్యవస్థాపకులకు (founders), దీని అర్థం ఏమిటంటే ఒక మోడల్ యొక్క ఉపయోగం అనేది కేవలం దాని శిక్షణ (training) మీద మాత్రమే కాకుండా, విస్తరణ (deployment) సమయంలో ఎంత ఇన్ఫరెన్స్ కంప్యూట్ (inference compute) కేటాయించబడింది అనే దానిపై కూడా ఆధారపడి ఉంటుంది.
టోకెన్ ధర నిరంతరం తగ్గుతున్న కొద్దీ, గతంలో ఆర్థికంగా సాధ్యం కాదనిపించిన సామర్థ్యాలు ప్రామాణికంగా మారుతాయి. AI భద్రత మరియు రక్షణ విషయానికి వస్తే, నియంత్రణ సంస్థలు మరియు కంపెనీలు సాంప్రదాయక, తక్కువ బడ్జెట్ బెంచ్మార్క్లపై ఆధారపడితే, స్వయంప్రతిపత్తి కలిగిన ఏజెంట్లకు (autonomous agents) సంబంధించిన ప్రమాదాలు—అంటే సంక్లిష్టమైన సైబర్ దాడులు వంటివి—చాలా తక్కువగా అంచనా వేయబడవచ్చు.
ముఖ్య అంశాలు (Key Takeaways)
- బెంచ్మార్క్లు తప్పుదారి పట్టించవచ్చు: స్థిరమైన టోకెన్ బడ్జెట్లు మోడల్ యొక్క కనిష్ట పనితీరును మాత్రమే చూపుతాయి, తద్వారా AI ఏజెంట్లు సాధించగల గరిష్ట సామర్థ్యాన్ని క్రమబద్ధంగా తక్కువగా అంచనా వేస్తాయి.
- కంప్యూట్ సామర్థ్యాన్ని పెంచుతుంది: టెస్ట్-టైమ్ కంప్యూట్ బడ్జెట్ పెరిగే కొద్దీ సాఫ్ట్వేర్ ఇంజనీరింగ్ మరియు గణితంలో విజయ రేట్లు గణనీయంగా పెరుగుతాయి.
- "రెట్టింపు" రేటు వేగవంతమవుతోంది: అధిక కంప్యూట్ బడ్జెట్లలో, ఫ్రాంటియర్ మోడల్స్ సంక్లిష్టమైన పనులను నేర్చుకునే రేటు గతంలో అంచనా వేసిన దానికంటే చాలా వేగంగా ఉంటుంది.
