Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial23 કલાક પહેલાં3min read

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities

In this article

શા માટે પ્રમાણભૂત AI બેન્ચમાર્ક પદ્ધતિસર એજન્ટની ક્ષમતાઓને ઓછી આંકતા હોય છે

વર્તમાન AI મૂલ્યાંકન પદ્ધતિઓ ફ્રન્ટિયર મોડલ્સની સાચી ક્ષમતાઓને પકડવામાં નિષ્ફળ રહી રહી છે, જે ઘણીવાર કમ્પ્યુટેશનલ બજેટની અછતને બુદ્ધિની અછત તરીકે ભૂલથી માની લે છે. યુકેના AI Security Institute (AISI) એ ખુલાસો કર્યો છે કે AI એજન્ટનું પ્રદર્શન એ કોઈ નિશ્ચિત સ્કોર નથી, પરંતુ એક સ્કેલિંગ કર્વ (વધતી જતી રેખા) છે જે ટેસ્ટ-ટાઇમ કમ્પ્યુટ વધારવા સાથે ઝડપથી વધે છે.

કમ્પ્યુટ-ક્ષમતા કર્વ (Compute-Capability Curve)

AISI સંશોધનનું મુખ્ય તારણ એ છે કે AI એજન્ટનો સફળતાનો દર તેના "ટેસ્ટ-ટાઇમ કમ્પ્યુટ" સાથે અતૂટ રીતે જોડાયેલ છે—એટલે કે કોઈ કાર્ય પર કામ કરતી વખતે એજન્ટને કેટલા પ્રોસેસિંગ પાવર અને ટોકન્સનો ઉપયોગ કરવાની મંજૂરી આપવામાં આવે છે. જ્યારે સંશોધકો મૂલ્યાંકન માટે નિશ્ચિત બજેટ મર્યાદાઓ લાદે છે, ત્યારે તેઓ મોડલની મહત્તમ ક્ષમતાને બદલે તેની લઘુત્તમ ક્ષમતાને માપી રહ્યા હોય છે.

આ ઘટના અનેક ઉચ્ચ-જોખમ ધરાવતા ક્ષેત્રોમાં જોવા મળે છે. TerminalBench 2.0 અને SWE-Bench Pro જેવા બેન્ચમાર્કનો ઉપયોગ કરીને સોફ્ટવેર એન્જિનિયરિંગના કાર્યોમાં, જ્યારે ટોકન બજેટ દસ મિલિયન સુધી વધારવામાં આવ્યું ત્યારે સફળતાના દરમાં અંદાજે 25% નો ઉછાળો આવ્યો હતો. તેવી જ રીતે, "Humanity's Last Exam" માં ગાણિતિક અને શૈક્ષણિક કાર્યોમાં બજેટ પાંચ મિલિયન ટોકન્સ સુધી પહોંચતા 22% નો વધારો જોવા મળ્યો હતો.

માનવ વિરુદ્ધ AI કાર્ય સમયનો પાવર લો (Power Law)

આ અભ્યાસે માનવ નિષ્ણાતને કાર્ય માટે જરૂરી સમય અને AI એજન્ટ દ્વારા જરૂરી ટોકન વપરાશ વચ્ચે સીધો સંબંધ સ્થાપિત કર્યો છે. આ સંબંધ પાવર લો (power law) ને અનુસરે છે: જે કાર્યમાં માનવને એક મિનિટ લાગે છે તેમાં એજન્ટને હજારો ટોકન્સનો ખર્ચ થાય છે, જ્યારે એક કલાકના કાર્યમાં લાખો ટોકન્સનો ખર્ચ થાય છે.

આ બાબત વર્તમાન પરીક્ષણમાં એક મોટો 'બ્લાઈન્ડ સ્પોટ' (અંધપોઈન્ટ) બનાવે છે. ઉદાહરણ તરીકે, AISI સાયબર સિક્યુરિટી કાર્ય "The Last Ones" માટે અંદાજે 20 કલાકના માનવ નિષ્ણાતની જરૂર પડે છે. સંસ્થા દ્વારા પરીક્ષણ કરાયેલ કોઈપણ મોડલ 30 મિલિયનથી ઓછા ટોકન્સ સાથે આ કાર્ય કરી શક્યું નથી. પ્રમાણભૂત, ઓછા બજેટના મૂલ્યાંકનોનો ઉપયોગ કરીને, સંશોધકો અસરકારક રીતે સૌથી જટિલ અને નિર્ણાયક કાર્યોને માપન પ્રક્રિયામાંથી બાકાત રાખી રહ્યા છે.

પ્રગતિમાં ઝડપ અને સુધારણાના ત્રણ અક્ષો

AISI નોંધે છે કે ફ્રન્ટિયર મોડલ્સનો "ટાઇમ હોરાઇઝન" (સમય ક્ષિતિજ)—એટલે કે તેઓ જે કાર્યોને હેન્ડલ કરી શકે છે તેની જટિલતા—પહેલાના અંદાજ કરતા ઘણો ઝડપી રીતે વધી રહ્યો છે. જ્યારે અગાઉના અંદાજો સૂચવતા હતા કે 2.5 મિલિયન ટોકનના નિશ્ચિત બજેટ પર સાયબર કાર્યો માટેનો ટાઇમ હોરાઇઝન દર 4.7 મહિને બમણો થાય છે, ત્યારે ઊંચા બજેટ પર તે દર નોંધપાત્ર રીતે ઝડપી બને છે. 50 મિલિયન ટોકન્સ પર, બમણો થવાનો દર દર 40 થી 50 દિવસે પહોંચી જાય છે.

નવા મોડલ્સ (જેમ કે પરીક્ષણ કરાયેલ GPT અને Claude શ્રેણી) ત્રણ ચોક્કસ પરિમાણોમાં સુધારો દર્શાવે છે:

Reach (પહોંચ): વધુને વધુ મુશ્કેલ કાર્યોને ઉકેલવાની ક્ષમતા.
Reliability (વિશ્વસનીયતા): સમાન કાર્યને વધુ સુસંગત રીતે ઉકેલવાની ક્ષમતા.
Efficiency (કાર્યક્ષમતા): ઓછા ટોકન્સનો ઉપયોગ કરીને કાર્યો ઉકેલવાની ક્ષમતા.

AI સુરક્ષા અને તૈનાતી (Deployment) માટે અસરો

આ સંશોધન AI મૂલ્યાંકનના અભિગમને "નિશ્ચિત સ્કોર" થી બદલીને "કમ્પ્યુટ-અવેર કર્વ" (compute-aware curves) માં ફેરવે છે. ડેવલપર્સ અને ફાઉન્ડર્સ માટે, આનો અર્થ એ છે કે મોડલની ઉપયોગિતા માત્ર તેના તાલીમ (training) પર જ નહીં, પરંતુ તૈનાતી (deployment) દરમિયાન કેટલા ઇન્ફરન્સ કમ્પ્યુટ ફાળવવામાં આવે છે તેના પર પણ નિર્ભર છે.

જેમ જેમ પ્રતિ ટોકન ખર્ચ ઘટતો જાય છે, તેમ અગાઉ આર્થિક રીતે અશક્ય લાગતી ક્ષમતાઓ પ્રમાણભૂત બની જશે. AI સુરક્ષા અને સુરક્ષા માટે, આનો અર્થ એ છે કે જો નિયમનકારો અને કંપનીઓ પરંપરાગત, ઓછા બજેટના બેન્ચમાર્ક પર આધાર રાખશે, તો સ્વાયત્ત એજન્ટો (autonomous agents) સંબંધિત જોખમો—જેમ કે જટિલ સાયબર હુમલા—તેમને નોંધપાત્ર રીતે ઓછાં આંકવામાં આવી શકે છે.

મુખ્ય તારણો

બેન્ચમાર્ક ભ્રામક છે: નિશ્ચિત ટોકન બજેટ મોડલના લઘુત્તમ પ્રદર્શનને પકડે છે, જે પદ્ધતિસર રીતે AI એજન્ટો શું હાંસલ કરી શકે છે તેની મહત્તમ સીમાને ઓછી આંકતા હોય છે.
કમ્પ્યુટ ક્ષમતા વધારે છે: સોફ્ટવેર એન્જિનિયરિંગ અને ગણિતમાં સફળતાના દરમાં ટેસ્ટ-ટાઇમ કમ્પ્યુટ બજેટ વધતા નોંધપાત્ર વધારો થાય છે.
"બમણા થવાનો" દર વધી રહ્યો છે: ઊંચા કમ્પ્યુટ બજેટ પર, ફ્રન્ટિયર મોડલ્સ જટિલ કાર્યોમાં નિપુણતા મેળવવાનો દર અગાઉના અંદાજ કરતા ઘણો વધારે છે.

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities

શા માટે પ્રમાણભૂત AI બેન્ચમાર્ક પદ્ધતિસર એજન્ટની ક્ષમતાઓને ઓછી આંકતા હોય છે

કમ્પ્યુટ-ક્ષમતા કર્વ (Compute-Capability Curve)

માનવ વિરુદ્ધ AI કાર્ય સમયનો પાવર લો (Power Law)

પ્રગતિમાં ઝડપ અને સુધારણાના ત્રણ અક્ષો

AI સુરક્ષા અને તૈનાતી (Deployment) માટે અસરો

મુખ્ય તારણો

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI એજન્ટનું મૂલ્યાંકન ખૂબ વહેલું સમાપ્ત થઈ જાય છે

એજન્ટિક AI નો ઉદય: ટેક ટીમો ઓટોમેશનના ક્ષેત્રમાં શા માટે નેતૃત્વ કરી રહી છે

Why Frontier AI Models Fail Financial Triage Tests