શા માટે પ્રમાણભૂત AI બેન્ચમાર્ક પદ્ધતિસર એજન્ટની ક્ષમતાઓને ઓછી આંકતા હોય છે

વર્તમાન AI મૂલ્યાંકન પદ્ધતિઓ ફ્રન્ટિયર મોડલ્સની સાચી ક્ષમતાઓને પકડવામાં નિષ્ફળ રહી રહી છે, જે ઘણીવાર કમ્પ્યુટેશનલ બજેટની અછતને બુદ્ધિની અછત તરીકે ભૂલથી માની લે છે. યુકેના AI Security Institute (AISI) એ ખુલાસો કર્યો છે કે AI એજન્ટનું પ્રદર્શન એ કોઈ નિશ્ચિત સ્કોર નથી, પરંતુ એક સ્કેલિંગ કર્વ (વધતી જતી રેખા) છે જે ટેસ્ટ-ટાઇમ કમ્પ્યુટ વધારવા સાથે ઝડપથી વધે છે.

કમ્પ્યુટ-ક્ષમતા કર્વ (Compute-Capability Curve)

AISI સંશોધનનું મુખ્ય તારણ એ છે કે AI એજન્ટનો સફળતાનો દર તેના "ટેસ્ટ-ટાઇમ કમ્પ્યુટ" સાથે અતૂટ રીતે જોડાયેલ છે—એટલે કે કોઈ કાર્ય પર કામ કરતી વખતે એજન્ટને કેટલા પ્રોસેસિંગ પાવર અને ટોકન્સનો ઉપયોગ કરવાની મંજૂરી આપવામાં આવે છે. જ્યારે સંશોધકો મૂલ્યાંકન માટે નિશ્ચિત બજેટ મર્યાદાઓ લાદે છે, ત્યારે તેઓ મોડલની મહત્તમ ક્ષમતાને બદલે તેની લઘુત્તમ ક્ષમતાને માપી રહ્યા હોય છે.

આ ઘટના અનેક ઉચ્ચ-જોખમ ધરાવતા ક્ષેત્રોમાં જોવા મળે છે. TerminalBench 2.0 અને SWE-Bench Pro જેવા બેન્ચમાર્કનો ઉપયોગ કરીને સોફ્ટવેર એન્જિનિયરિંગના કાર્યોમાં, જ્યારે ટોકન બજેટ દસ મિલિયન સુધી વધારવામાં આવ્યું ત્યારે સફળતાના દરમાં અંદાજે 25% નો ઉછાળો આવ્યો હતો. તેવી જ રીતે, "Humanity's Last Exam" માં ગાણિતિક અને શૈક્ષણિક કાર્યોમાં બજેટ પાંચ મિલિયન ટોકન્સ સુધી પહોંચતા 22% નો વધારો જોવા મળ્યો હતો.

માનવ વિરુદ્ધ AI કાર્ય સમયનો પાવર લો (Power Law)

આ અભ્યાસે માનવ નિષ્ણાતને કાર્ય માટે જરૂરી સમય અને AI એજન્ટ દ્વારા જરૂરી ટોકન વપરાશ વચ્ચે સીધો સંબંધ સ્થાપિત કર્યો છે. આ સંબંધ પાવર લો (power law) ને અનુસરે છે: જે કાર્યમાં માનવને એક મિનિટ લાગે છે તેમાં એજન્ટને હજારો ટોકન્સનો ખર્ચ થાય છે, જ્યારે એક કલાકના કાર્યમાં લાખો ટોકન્સનો ખર્ચ થાય છે.

આ બાબત વર્તમાન પરીક્ષણમાં એક મોટો 'બ્લાઈન્ડ સ્પોટ' (અંધપોઈન્ટ) બનાવે છે. ઉદાહરણ તરીકે, AISI સાયબર સિક્યુરિટી કાર્ય "The Last Ones" માટે અંદાજે 20 કલાકના માનવ નિષ્ણાતની જરૂર પડે છે. સંસ્થા દ્વારા પરીક્ષણ કરાયેલ કોઈપણ મોડલ 30 મિલિયનથી ઓછા ટોકન્સ સાથે આ કાર્ય કરી શક્યું નથી. પ્રમાણભૂત, ઓછા બજેટના મૂલ્યાંકનોનો ઉપયોગ કરીને, સંશોધકો અસરકારક રીતે સૌથી જટિલ અને નિર્ણાયક કાર્યોને માપન પ્રક્રિયામાંથી બાકાત રાખી રહ્યા છે.

પ્રગતિમાં ઝડપ અને સુધારણાના ત્રણ અક્ષો

AISI નોંધે છે કે ફ્રન્ટિયર મોડલ્સનો "ટાઇમ હોરાઇઝન" (સમય ક્ષિતિજ)—એટલે કે તેઓ જે કાર્યોને હેન્ડલ કરી શકે છે તેની જટિલતા—પહેલાના અંદાજ કરતા ઘણો ઝડપી રીતે વધી રહ્યો છે. જ્યારે અગાઉના અંદાજો સૂચવતા હતા કે 2.5 મિલિયન ટોકનના નિશ્ચિત બજેટ પર સાયબર કાર્યો માટેનો ટાઇમ હોરાઇઝન દર 4.7 મહિને બમણો થાય છે, ત્યારે ઊંચા બજેટ પર તે દર નોંધપાત્ર રીતે ઝડપી બને છે. 50 મિલિયન ટોકન્સ પર, બમણો થવાનો દર દર 40 થી 50 દિવસે પહોંચી જાય છે.

નવા મોડલ્સ (જેમ કે પરીક્ષણ કરાયેલ GPT અને Claude શ્રેણી) ત્રણ ચોક્કસ પરિમાણોમાં સુધારો દર્શાવે છે:

  • Reach (પહોંચ): વધુને વધુ મુશ્કેલ કાર્યોને ઉકેલવાની ક્ષમતા.
  • Reliability (વિશ્વસનીયતા): સમાન કાર્યને વધુ સુસંગત રીતે ઉકેલવાની ક્ષમતા.
  • Efficiency (કાર્યક્ષમતા): ઓછા ટોકન્સનો ઉપયોગ કરીને કાર્યો ઉકેલવાની ક્ષમતા.

AI સુરક્ષા અને તૈનાતી (Deployment) માટે અસરો

આ સંશોધન AI મૂલ્યાંકનના અભિગમને "નિશ્ચિત સ્કોર" થી બદલીને "કમ્પ્યુટ-અવેર કર્વ" (compute-aware curves) માં ફેરવે છે. ડેવલપર્સ અને ફાઉન્ડર્સ માટે, આનો અર્થ એ છે કે મોડલની ઉપયોગિતા માત્ર તેના તાલીમ (training) પર જ નહીં, પરંતુ તૈનાતી (deployment) દરમિયાન કેટલા ઇન્ફરન્સ કમ્પ્યુટ ફાળવવામાં આવે છે તેના પર પણ નિર્ભર છે.

જેમ જેમ પ્રતિ ટોકન ખર્ચ ઘટતો જાય છે, તેમ અગાઉ આર્થિક રીતે અશક્ય લાગતી ક્ષમતાઓ પ્રમાણભૂત બની જશે. AI સુરક્ષા અને સુરક્ષા માટે, આનો અર્થ એ છે કે જો નિયમનકારો અને કંપનીઓ પરંપરાગત, ઓછા બજેટના બેન્ચમાર્ક પર આધાર રાખશે, તો સ્વાયત્ત એજન્ટો (autonomous agents) સંબંધિત જોખમો—જેમ કે જટિલ સાયબર હુમલા—તેમને નોંધપાત્ર રીતે ઓછાં આંકવામાં આવી શકે છે.

મુખ્ય તારણો

  • બેન્ચમાર્ક ભ્રામક છે: નિશ્ચિત ટોકન બજેટ મોડલના લઘુત્તમ પ્રદર્શનને પકડે છે, જે પદ્ધતિસર રીતે AI એજન્ટો શું હાંસલ કરી શકે છે તેની મહત્તમ સીમાને ઓછી આંકતા હોય છે.
  • કમ્પ્યુટ ક્ષમતા વધારે છે: સોફ્ટવેર એન્જિનિયરિંગ અને ગણિતમાં સફળતાના દરમાં ટેસ્ટ-ટાઇમ કમ્પ્યુટ બજેટ વધતા નોંધપાત્ર વધારો થાય છે.
  • "બમણા થવાનો" દર વધી રહ્યો છે: ઊંચા કમ્પ્યુટ બજેટ પર, ફ્રન્ટિયર મોડલ્સ જટિલ કાર્યોમાં નિપુણતા મેળવવાનો દર અગાઉના અંદાજ કરતા ઘણો વધારે છે.