എന്തുകൊണ്ടാണ് നിലവിലുള്ള AI ബെഞ്ച്മാർക്കുകൾ ഏജന്റുകളുടെ കഴിവുകളെ വ്യവസ്ഥാപിതമായി കുറച്ചു കാണിക്കുന്നത്
നിലവിലെ AI മൂല്യനിർണ്ണയ രീതികൾക്ക് ഫ്രോണ്ടിയർ മോഡലുകളുടെ (frontier models) യഥാർത്ഥ സാധ്യതകൾ തിരിച്ചറിയാൻ കഴിയുന്നില്ല; പലപ്പോഴും കമ്പ്യൂട്ടേഷണൽ ബജറ്റിന്റെ കുറവിനെ ബുദ്ധിശക്തിയുടെ കുറവായി തെറ്റിദ്ധരിക്കുകയാണ് ചെയ്യുന്നത്. AI ഏജന്റുകളുടെ പ്രകടനം എന്നത് ഒരു നിശ്ചിത സ്കോറല്ലെന്നും, മറിച്ച് ടെസ്റ്റ്-ടൈം കമ്പ്യൂട്ട് (test-time compute) വർദ്ധിക്കുമ്പോൾ കുതിച്ചുയരുന്ന ഒരു സ്കെയിലിംഗ് കർവ് (scaling curve) ആണെന്നും യുകെയിലെ AI സെക്യൂരിറ്റി ഇൻസ്റ്റിറ്റ്യൂട്ട് (AISI) വെളിപ്പെടുത്തിയിട്ടുണ്ട്.
കമ്പ്യൂട്ട്-കഴിവ് കർവ് (The Compute-Capability Curve)
ഒരു AI ഏജന്റിന്റെ വിജയ നിരക്ക് അതിന്റെ "test-time compute"-മായി അവിഭാജ്യമായി ബന്ധപ്പെട്ടിരിക്കുന്നു എന്നതാണ് AISI ഗവേഷണത്തിന്റെ പ്രധാന കണ്ടെത്തൽ—അതായത് ഒരു ടാസ്ക് ചെയ്യുമ്പോൾ ഏജന്റിന് ഉപയോഗിക്കാൻ അനുവദിക്കുന്ന പ്രോസസ്സിംഗ് പവറും ടോക്കണുകളും. ഗവേഷകർ മൂല്യനിർണ്ണയത്തിന് നിശ്ചിത ബജറ്റ് പരിധികൾ ഏർപ്പെടുത്തുമ്പോൾ, അവർ ഒരു മോഡലിന്റെ പരമാവധി സാധ്യതകളല്ല, മറിച്ച് അതിന്റെ കുറഞ്ഞ കപ്പാസിറ്റിയാണ് അളക്കുന്നത്.
ഈ പ്രതിഭാസം ഉയർന്ന പ്രാധാന്യമുള്ള ഒന്നിലധികം മേഖലകളിൽ കാണാം. TerminalBench 2.0, SWE-Bench Pro തുടങ്ങിയ ബെഞ്ച്മാർക്കുകൾ ഉപയോഗിച്ചുള്ള സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ് ടാസ്ക്കുകളിൽ, ടോക്കൺ ബജറ്റ് പത്ത് മില്യൺ ആയി വർദ്ധിപ്പിച്ചപ്പോൾ വിജയ നിരക്ക് ഏകദേശം 25% വർദ്ധിച്ചു. അതുപോലെ, "Humanity's Last Exam"-ലെ ഗണിതശാസ്ത്രപരവും അക്കാദമിക്തുമായ ടാസ്ക്കുകളിൽ ബജറ്റ് അഞ്ച് മില്യൺ ടോക്കണുകളിലെത്തിയപ്പോൾ 22% വർദ്ധനവ് ഉണ്ടായി.
മനുഷ്യനും AI-യും തമ്മിലുള്ള ടാസ്ക് സമയത്തിന്റെ പവർ ലോ (The Power Law of Human vs. AI Task Time)
ഒരു മനുഷ്യ വിദഗ്ദ്ധന് ഒരു ടാസ്കിനായി എടുക്കുന്ന സമയവും ഒരു AI ഏജന്റിന് ആവശ്യമായ ടോക്കൺ ഉപയോഗവും തമ്മിൽ നേരിട്ടുള്ള ബന്ധമുണ്ടെന്ന് പഠനം സ്ഥാപിച്ചു. ഈ ബന്ധം ഒരു പവർ ലോ (power law) പിന്തുടരുന്നു: ഒരു മനുഷ്യന് ഒരു മിനിറ്റ് എടുക്കുന്ന ഒരു ടാസ്കിന് ഏജന്റിന് ആയിരക്കണക്കിന് ടോക്കണുകൾ ആവശ്യമായി വരുന്നു, എന്നാൽ ഒരു മണിക്കൂർ എടുക്കുന്ന ടാസ്കിന് ദശലക്ഷക്കണക്കിന് ടോക്കണുകൾ ആവശ്യമാണ്.
ഇത് നിലവിലെ പരിശോധനകളിൽ വലിയൊരു പോരായ്മ (blind spot) സൃഷ്ടിക്കുന്നു. ഉദാഹരണത്തിന്, AISI-യുടെ സൈബർ സെക്യൂരിറ്റി ടാസ്ക് ആയ "The Last Ones" ഏകദേശം 20 മണിക്കൂർ മനുഷ്യ വൈദഗ്ധ്യം ആവശ്യപ്പെടുന്നു. ഇൻസ്റ്റിറ്റ്യൂട്ട് പരിശോധിച്ച ഒരു മോഡലിനും 30 മില്യൺ ടോക്കണുകളിൽ താഴെ ഉപയോഗിച്ച് ഈ ടാസ്ക് പരിഹരിക്കാൻ കഴിഞ്ഞില്ല. നിലവിലുള്ള കുറഞ്ഞ ബജറ്റ് മൂല്യനിർണ്ണയങ്ങൾ ഉപയോഗിക്കുന്നതിലൂടെ, ഗവേഷകർ ഏറ്റവും സങ്കീർണ്ണവും നിർണ്ണായകവുമായ ടാസ്ക്കുകളെ അളവ് പ്രക്രിയയിൽ നിന്ന് ഒഴിവാക്കുകയാണ് ചെയ്യുന്നത്.
പുരോഗതിയുടെ വേഗതയും മെച്ചപ്പെടുത്തലിന്റെ മൂന്ന് അച്ചുതണ്ടുകളും
ഫ്രോണ്ടിയർ മോഡലുകളുടെ "time horizon"—അതായത് അവ കൈകാര്യം ചെയ്യാൻ കഴിയുന്ന ടാസ്ക്കുകളുടെ സങ്കീർണ്ണത—മുൻപ് കരുതിയതിനേക്കാൾ വേഗത്തിൽ വികസിച്ചുകൊണ്ടിരിക്കുകയാണെന്ന് AISI നിരീക്ഷിക്കുന്നു. 2.5 മില്യൺ ടോക്കൺ ബജറ്റിൽ സൈബർ ടാസ്ക്കുകളുടെ time horizon ഓരോ 4.7 മാസത്തിലും ഇരട്ടിയാകുമെന്ന് മുൻപത്തെ കണക്കുകൂട്ടലുകൾ സൂചിപ്പിച്ചപ്പോൾ, ഉയർന്ന ബജറ്റുകളിൽ ഈ നിരക്ക് ഗണ്യമായി വർദ്ധിക്കുന്നു. 50 മില്യൺ ടോക്കണുകളിൽ, ഈ ഇരട്ടിപ്പിക്കൽ നിരക്ക് ഓരോ 40 മുതൽ 50 ദിവസത്തിലും ആയി മാറുന്നു.
പുതിയ മോഡലുകൾ (പരിശോധിച്ച GPT, Claude സീരീസുകൾ പോലുള്ളവ) മൂന്ന് പ്രത്യേക തലങ്ങളിൽ പുരോഗതി കാണിക്കുന്നു:
- Reach: കൂടുതൽ കഠിനമായ ടാസ്ക്കുകൾ നേരിടാനുള്ള കഴിവ്.
- Reliability: ഒരേ ടാസ്ക് കൂടുതൽ സ്ഥിരതയോടെ പരിഹരിക്കാനുള്ള കഴിവ്.
- Efficiency: കുറഞ്ഞ ടോക്കണുകൾ ഉപയോഗിച്ച് ടാസ്ക്കുകൾ പരിഹരിക്കാനുള്ള കഴിവ്.
AI സുരക്ഷയ്ക്കും വിന്യാസത്തിനുമുള്ള പ്രത്യാഘാതങ്ങൾ
ഈ ഗവേഷണം AI മൂല്യനിർണ്ണയത്തിന്റെ രീതിയെ "നിശ്ചിത സ്കോറുകളിൽ" നിന്ന് "കമ്പ്യൂട്ട് അധിഷ്ഠിത കർവുകളിലേക്ക്" (compute-aware curves) മാറ്റുന്നു. ഡെവലപ്പർമാരെയും സ്ഥാപകരെയും സംബന്ധിച്ചിടത്തോളം, ഒരു മോഡലിന്റെ ഉപയോഗക്ഷമത എന്നത് അതിന്റെ പരിശീലനത്തിന്റെ (training) മാത്രം ഫലമല്ല, മറിച്ച് വിന്യാസ സമയത്ത് (deployment) എത്രത്തോളം ഇൻഫറൻസ് കമ്പ്യൂട്ട് അനുവദിക്കുന്നു എന്നതിനെ ആശ്രയിച്ചിരിക്കുന്നു.
ഓരോ ടോക്കണിന്റെയും ചിലവ് കുറഞ്ഞുകൊണ്ടിരിക്കുമ്പോൾ, മുമ്പ് സാമ്പത്തികമായി പ്രായോഗികമല്ലാതായിരുന്ന കഴിവുകൾ സാധാരണമായി മാറും. AI സുരക്ഷയെ സംബന്ധിച്ചിടത്തോളം, നിയന്ത്രണ ഏജൻസികളും കമ്പനികളും പരമ്പരാഗതമായ കുറഞ്ഞ ബജറ്റ് ബെഞ്ച്മാർക്കുകളെ മാത്രം ആശ്രയിക്കുകയാണെങ്കിൽ, സ്വയംഭരണ ഏജന്റുകളുമായി (autonomous agents) ബന്ധപ്പെട്ട അപകടസാധ്യതകൾ—സങ്കീർണ്ണമായ സൈബർ ആക്രമണങ്ങൾ പോലുള്ളവ—വളരെ കുറച്ചു കാണപ്പെടാൻ സാധ്യതയുണ്ട്.
പ്രധാന കാര്യങ്ങൾ
- ബെഞ്ച്മാർക്കുകൾ തെറ്റിദ്ധരിപ്പിക്കുന്നു: നിശ്ചിത ടോക്കൺ ബജറ്റുകൾ ഒരു മോഡലിന്റെ കുറഞ്ഞ പ്രകടനം മാത്രമാണ് രേഖപ്പെടുത്തുന്നത്, ഇത് AI ഏജന്റുകൾക്ക് കൈവരിക്കാൻ കഴിയുന്ന പരമാവധി സാധ്യതകളെ വ്യവസ്ഥാപിതമായി കുറച്ചു കാണിക്കുന്നു.
- കമ്പ്യൂട്ട് കഴിവ് വർദ്ധിപ്പിക്കുന്നു: ടെസ്റ്റ്-ടൈം കമ്പ്യൂട്ട് ബജറ്റ് വർദ്ധിക്കുമ്പോൾ സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗിലും ഗണിതശാസ്ത്രത്തിലും വിജയ നിരക്ക് ഗണ്യമായി ഉയരുന്നു.
- "ഇരട്ടിപ്പിക്കൽ" നിരക്ക് വേഗത്തിലാകുന്നു: ഉയർന്ന കമ്പ്യൂട്ട് ബജറ്റുകളിൽ, ഫ്രോണ്ടിയർ മോഡലുകൾ സങ്കീർണ്ണമായ ടാസ്ക്കുകൾ സ്വായത്തമാക്കുന്ന നിരക്ക് മുൻപ് കണക്കാക്കിയതിനേക്കാൾ വളരെ കൂടുതലാണ്.
