സാധാരണ AI ബെഞ്ച്മാർക്കുകൾ എന്തുകൊണ്ടാണ് ഏജന്റുകളുടെ കഴിവുകളെ വ്യവസ്ഥാപിതമായി കുറച്ചു കാണിക്കുന്നത്?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial20 മണിക്കൂർ മുമ്പ്3min read

സാധാരണ AI ബെഞ്ച്മാർക്കുകൾ എന്തുകൊണ്ടാണ് ഏജന്റുകളുടെ കഴിവുകളെ വ്യവസ്ഥാപിതമായി കുറച്ചു കാണിക്കുന്നത്?

In this article

എന്തുകൊണ്ടാണ് നിലവിലുള്ള AI ബെഞ്ച്മാർക്കുകൾ ഏജന്റുകളുടെ കഴിവുകളെ വ്യവസ്ഥാപിതമായി കുറച്ചു കാണിക്കുന്നത്

നിലവിലെ AI മൂല്യനിർണ്ണയ രീതികൾക്ക് ഫ്രോണ്ടിയർ മോഡലുകളുടെ (frontier models) യഥാർത്ഥ സാധ്യതകൾ തിരിച്ചറിയാൻ കഴിയുന്നില്ല; പലപ്പോഴും കമ്പ്യൂട്ടേഷണൽ ബജറ്റിന്റെ കുറവിനെ ബുദ്ധിശക്തിയുടെ കുറവായി തെറ്റിദ്ധരിക്കുകയാണ് ചെയ്യുന്നത്. AI ഏജന്റുകളുടെ പ്രകടനം എന്നത് ഒരു നിശ്ചിത സ്കോറല്ലെന്നും, മറിച്ച് ടെസ്റ്റ്-ടൈം കമ്പ്യൂട്ട് (test-time compute) വർദ്ധിക്കുമ്പോൾ കുതിച്ചുയരുന്ന ഒരു സ്കെയിലിംഗ് കർവ് (scaling curve) ആണെന്നും യുകെയിലെ AI സെക്യൂരിറ്റി ഇൻസ്റ്റിറ്റ്യൂട്ട് (AISI) വെളിപ്പെടുത്തിയിട്ടുണ്ട്.

കമ്പ്യൂട്ട്-കഴിവ് കർവ് (The Compute-Capability Curve)

ഒരു AI ഏജന്റിന്റെ വിജയ നിരക്ക് അതിന്റെ "test-time compute"-മായി അവിഭാജ്യമായി ബന്ധപ്പെട്ടിരിക്കുന്നു എന്നതാണ് AISI ഗവേഷണത്തിന്റെ പ്രധാന കണ്ടെത്തൽ—അതായത് ഒരു ടാസ്ക് ചെയ്യുമ്പോൾ ഏജന്റിന് ഉപയോഗിക്കാൻ അനുവദിക്കുന്ന പ്രോസസ്സിംഗ് പവറും ടോക്കണുകളും. ഗവേഷകർ മൂല്യനിർണ്ണയത്തിന് നിശ്ചിത ബജറ്റ് പരിധികൾ ഏർപ്പെടുത്തുമ്പോൾ, അവർ ഒരു മോഡലിന്റെ പരമാവധി സാധ്യതകളല്ല, മറിച്ച് അതിന്റെ കുറഞ്ഞ കപ്പാസിറ്റിയാണ് അളക്കുന്നത്.

ഈ പ്രതിഭാസം ഉയർന്ന പ്രാധാന്യമുള്ള ഒന്നിലധികം മേഖലകളിൽ കാണാം. TerminalBench 2.0, SWE-Bench Pro തുടങ്ങിയ ബെഞ്ച്മാർക്കുകൾ ഉപയോഗിച്ചുള്ള സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറിംഗ് ടാസ്ക്കുകളിൽ, ടോക്കൺ ബജറ്റ് പത്ത് മില്യൺ ആയി വർദ്ധിപ്പിച്ചപ്പോൾ വിജയ നിരക്ക് ഏകദേശം 25% വർദ്ധിച്ചു. അതുപോലെ, "Humanity's Last Exam"-ലെ ഗണിതശാസ്ത്രപരവും അക്കാദമിക്തുമായ ടാസ്ക്കുകളിൽ ബജറ്റ് അഞ്ച് മില്യൺ ടോക്കണുകളിലെത്തിയപ്പോൾ 22% വർദ്ധനവ് ഉണ്ടായി.

മനുഷ്യനും AI-യും തമ്മിലുള്ള ടാസ്ക് സമയത്തിന്റെ പവർ ലോ (The Power Law of Human vs. AI Task Time)

ഒരു മനുഷ്യ വിദഗ്ദ്ധന് ഒരു ടാസ്കിനായി എടുക്കുന്ന സമയവും ഒരു AI ഏജന്റിന് ആവശ്യമായ ടോക്കൺ ഉപയോഗവും തമ്മിൽ നേരിട്ടുള്ള ബന്ധമുണ്ടെന്ന് പഠനം സ്ഥാപിച്ചു. ഈ ബന്ധം ഒരു പവർ ലോ (power law) പിന്തുടരുന്നു: ഒരു മനുഷ്യന് ഒരു മിനിറ്റ് എടുക്കുന്ന ഒരു ടാസ്കിന് ഏജന്റിന് ആയിരക്കണക്കിന് ടോക്കണുകൾ ആവശ്യമായി വരുന്നു, എന്നാൽ ഒരു മണിക്കൂർ എടുക്കുന്ന ടാസ്കിന് ദശലക്ഷക്കണക്കിന് ടോക്കണുകൾ ആവശ്യമാണ്.

ഇത് നിലവിലെ പരിശോധനകളിൽ വലിയൊരു പോരായ്മ (blind spot) സൃഷ്ടിക്കുന്നു. ഉദാഹരണത്തിന്, AISI-യുടെ സൈബർ സെക്യൂരിറ്റി ടാസ്ക് ആയ "The Last Ones" ഏകദേശം 20 മണിക്കൂർ മനുഷ്യ വൈദഗ്ധ്യം ആവശ്യപ്പെടുന്നു. ഇൻസ്റ്റിറ്റ്യൂട്ട് പരിശോധിച്ച ഒരു മോഡലിനും 30 മില്യൺ ടോക്കണുകളിൽ താഴെ ഉപയോഗിച്ച് ഈ ടാസ്ക് പരിഹരിക്കാൻ കഴിഞ്ഞില്ല. നിലവിലുള്ള കുറഞ്ഞ ബജറ്റ് മൂല്യനിർണ്ണയങ്ങൾ ഉപയോഗിക്കുന്നതിലൂടെ, ഗവേഷകർ ഏറ്റവും സങ്കീർണ്ണവും നിർണ്ണായകവുമായ ടാസ്ക്കുകളെ അളവ് പ്രക്രിയയിൽ നിന്ന് ഒഴിവാക്കുകയാണ് ചെയ്യുന്നത്.

പുരോഗതിയുടെ വേഗതയും മെച്ചപ്പെടുത്തലിന്റെ മൂന്ന് അച്ചുതണ്ടുകളും

ഫ്രോണ്ടിയർ മോഡലുകളുടെ "time horizon"—അതായത് അവ കൈകാര്യം ചെയ്യാൻ കഴിയുന്ന ടാസ്ക്കുകളുടെ സങ്കീർണ്ണത—മുൻപ് കരുതിയതിനേക്കാൾ വേഗത്തിൽ വികസിച്ചുകൊണ്ടിരിക്കുകയാണെന്ന് AISI നിരീക്ഷിക്കുന്നു. 2.5 മില്യൺ ടോക്കൺ ബജറ്റിൽ സൈബർ ടാസ്ക്കുകളുടെ time horizon ഓരോ 4.7 മാസത്തിലും ഇരട്ടിയാകുമെന്ന് മുൻപത്തെ കണക്കുകൂട്ടലുകൾ സൂചിപ്പിച്ചപ്പോൾ, ഉയർന്ന ബജറ്റുകളിൽ ഈ നിരക്ക് ഗണ്യമായി വർദ്ധിക്കുന്നു. 50 മില്യൺ ടോക്കണുകളിൽ, ഈ ഇരട്ടിപ്പിക്കൽ നിരക്ക് ഓരോ 40 മുതൽ 50 ദിവസത്തിലും ആയി മാറുന്നു.

പുതിയ മോഡലുകൾ (പരിശോധിച്ച GPT, Claude സീരീസുകൾ പോലുള്ളവ) മൂന്ന് പ്രത്യേക തലങ്ങളിൽ പുരോഗതി കാണിക്കുന്നു:

Reach: കൂടുതൽ കഠിനമായ ടാസ്ക്കുകൾ നേരിടാനുള്ള കഴിവ്.
Reliability: ഒരേ ടാസ്ക് കൂടുതൽ സ്ഥിരതയോടെ പരിഹരിക്കാനുള്ള കഴിവ്.
Efficiency: കുറഞ്ഞ ടോക്കണുകൾ ഉപയോഗിച്ച് ടാസ്ക്കുകൾ പരിഹരിക്കാനുള്ള കഴിവ്.

AI സുരക്ഷയ്ക്കും വിന്യാസത്തിനുമുള്ള പ്രത്യാഘാതങ്ങൾ

ഈ ഗവേഷണം AI മൂല്യനിർണ്ണയത്തിന്റെ രീതിയെ "നിശ്ചിത സ്കോറുകളിൽ" നിന്ന് "കമ്പ്യൂട്ട് അധിഷ്ഠിത കർവുകളിലേക്ക്" (compute-aware curves) മാറ്റുന്നു. ഡെവലപ്പർമാരെയും സ്ഥാപകരെയും സംബന്ധിച്ചിടത്തോളം, ഒരു മോഡലിന്റെ ഉപയോഗക്ഷമത എന്നത് അതിന്റെ പരിശീലനത്തിന്റെ (training) മാത്രം ഫലമല്ല, മറിച്ച് വിന്യാസ സമയത്ത് (deployment) എത്രത്തോളം ഇൻഫറൻസ് കമ്പ്യൂട്ട് അനുവദിക്കുന്നു എന്നതിനെ ആശ്രയിച്ചിരിക്കുന്നു.

ഓരോ ടോക്കണിന്റെയും ചിലവ് കുറഞ്ഞുകൊണ്ടിരിക്കുമ്പോൾ, മുമ്പ് സാമ്പത്തികമായി പ്രായോഗികമല്ലാതായിരുന്ന കഴിവുകൾ സാധാരണമായി മാറും. AI സുരക്ഷയെ സംബന്ധിച്ചിടത്തോളം, നിയന്ത്രണ ഏജൻസികളും കമ്പനികളും പരമ്പരാഗതമായ കുറഞ്ഞ ബജറ്റ് ബെഞ്ച്മാർക്കുകളെ മാത്രം ആശ്രയിക്കുകയാണെങ്കിൽ, സ്വയംഭരണ ഏജന്റുകളുമായി (autonomous agents) ബന്ധപ്പെട്ട അപകടസാധ്യതകൾ—സങ്കീർണ്ണമായ സൈബർ ആക്രമണങ്ങൾ പോലുള്ളവ—വളരെ കുറച്ചു കാണപ്പെടാൻ സാധ്യതയുണ്ട്.

പ്രധാന കാര്യങ്ങൾ

ബെഞ്ച്മാർക്കുകൾ തെറ്റിദ്ധരിപ്പിക്കുന്നു: നിശ്ചിത ടോക്കൺ ബജറ്റുകൾ ഒരു മോഡലിന്റെ കുറഞ്ഞ പ്രകടനം മാത്രമാണ് രേഖപ്പെടുത്തുന്നത്, ഇത് AI ഏജന്റുകൾക്ക് കൈവരിക്കാൻ കഴിയുന്ന പരമാവധി സാധ്യതകളെ വ്യവസ്ഥാപിതമായി കുറച്ചു കാണിക്കുന്നു.
കമ്പ്യൂട്ട് കഴിവ് വർദ്ധിപ്പിക്കുന്നു: ടെസ്റ്റ്-ടൈം കമ്പ്യൂട്ട് ബജറ്റ് വർദ്ധിക്കുമ്പോൾ സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറിംഗിലും ഗണിതശാസ്ത്രത്തിലും വിജയ നിരക്ക് ഗണ്യമായി ഉയരുന്നു.
"ഇരട്ടിപ്പിക്കൽ" നിരക്ക് വേഗത്തിലാകുന്നു: ഉയർന്ന കമ്പ്യൂട്ട് ബജറ്റുകളിൽ, ഫ്രോണ്ടിയർ മോഡലുകൾ സങ്കീർണ്ണമായ ടാസ്ക്കുകൾ സ്വായത്തമാക്കുന്ന നിരക്ക് മുൻപ് കണക്കാക്കിയതിനേക്കാൾ വളരെ കൂടുതലാണ്.

സാധാരണ AI ബെഞ്ച്മാർക്കുകൾ എന്തുകൊണ്ടാണ് ഏജന്റുകളുടെ കഴിവുകളെ വ്യവസ്ഥാപിതമായി കുറച്ചു കാണിക്കുന്നത്?

എന്തുകൊണ്ടാണ് നിലവിലുള്ള AI ബെഞ്ച്മാർക്കുകൾ ഏജന്റുകളുടെ കഴിവുകളെ വ്യവസ്ഥാപിതമായി കുറച്ചു കാണിക്കുന്നത്

കമ്പ്യൂട്ട്-കഴിവ് കർവ് (The Compute-Capability Curve)

മനുഷ്യനും AI-യും തമ്മിലുള്ള ടാസ്ക് സമയത്തിന്റെ പവർ ലോ (The Power Law of Human vs. AI Task Time)

പുരോഗതിയുടെ വേഗതയും മെച്ചപ്പെടുത്തലിന്റെ മൂന്ന് അച്ചുതണ്ടുകളും

AI സുരക്ഷയ്ക്കും വിന്യാസത്തിനുമുള്ള പ്രത്യാഘാതങ്ങൾ

പ്രധാന കാര്യങ്ങൾ

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI Agent Evaluation Ends Too Early

ഏജന്റിക് AI-യുടെ ഉദയം: എന്തുകൊണ്ട് ടെക് ടീമുകൾ ഓട്ടോമേഷൻ രംഗത്തെ നയിക്കുന്നു

Why Frontier AI Models Fail Financial Triage Tests