LLM ബെഞ്ച്മാർക്കുകളുടെ കാലഘട്ടത്തിൽ ഏജന്റിക് AI-യെ വിലയിരുത്തുന്നു
മിക്ക AI പരീക്ഷണങ്ങളും ലളിതമായ ഒരു രീതിയാണ് പിന്തുടരുന്നത്. നിങ്ങൾ ഒരു മോഡലിന് ഒരു പ്രോംപ്റ്റ് നൽകുന്നു. ഉത്തരം ഒരു റഫറൻസുമായി താരതമ്യം ചെയ്യുന്നു. ഫലം സ്കോർ ചെയ്യുന്നു.
ഇത് സംഗ്രഹങ്ങൾക്കും (summaries) വർഗ്ഗീകരണത്തിനും (classification) അനുയോജ്യമാണ്. എന്നാൽ മാറിക്കൊണ്ടിരിക്കുന്ന ഒരു സാഹചര്യത്തിൽ ഒരു മോഡൽ പ്രവർത്തിക്കേണ്ടി വരുമ്പോൾ ഇത് പരാജയപ്പെടുന്നു.
'The Age of LLM' എന്ന പേപ്പർ ഇതിനൊരു മികച്ച മാർഗ്ഗം അവതരിപ്പിക്കുന്നു. ഇത് ഒരു ഗ്രിഡിലുള്ള 1v1 ഗെയിമാണ്. 'ഫോഗ് ഓഫ് വാർ' (fog of war) നിലനിൽക്കുന്ന സാഹചര്യത്തിൽ രണ്ട് മോഡലുകൾ തമ്മിൽ മത്സരിക്കുന്നു. അവർക്ക് എല്ലാം കാണാൻ കഴിയില്ല. ശത്രു യൂണിറ്റുകളെ കണ്ടെത്താൻ അവർ വിവരങ്ങൾ ശേഖരിക്കുകയോ (scout) ഊഹിക്കുകയോ വേണം. ഇടപാടുകളോ അന്ത്യശാസനങ്ങളോ നിർദ്ദേശിക്കാൻ അവർ നയതന്ത്രം (diplomacy) ഉപയോഗിക്കണം.
ഓരോ നീക്കവും കർശനമായ ഒരു JSON schema പിന്തുടരണം. ഒരു നീക്കം നിയമവിരുദ്ധമാണെങ്കിൽ സിസ്റ്റം അത് തള്ളിക്കളയുന്നു.
ഈ പരീക്ഷണം ചില പ്രത്യേക കഴിവുകളെ അളക്കുന്നു:
- State tracking: മോഡൽ കണ്ട കാര്യങ്ങളും നഷ്ടപ്പെട്ടവയും ഓർമ്മിക്കുന്നുണ്ടോ?
- Belief management: അപൂർണ്ണമായ വിവരങ്ങൾ ഉപയോഗിച്ച് അത് യുക്തിസഹമായി പ്രവർത്തിക്കുന്നുണ്ടോ?
- Action validity: അത് സാഹചര്യത്തിന്റെ നിയമങ്ങൾ പാലിക്കുന്നുണ്ടോ?
- Long-horizon strategy: ഒരു ലക്ഷ്യത്തിലേക്ക് നയിക്കുന്ന നീക്കങ്ങളുടെ ഒരു ശ്രേണി തിരഞ്ഞെടുക്കാൻ അതിന് കഴിയുന്നുണ്ടോ?
ഒരു മോഡൽ സംസാരിക്കുമ്പോൾ വളരെ സ്വാഭാവികമായി തോന്നാമെങ്കിലും പ്രായോഗികമായി പരാജയപ്പെട്ടേക്കാം. അത് അതിന്റെ സ്റ്റേറ്റ് (state) മറന്നുപോയേക്കാം അല്ലെങ്കിൽ തെറ്റായ ടൂൾ കോളുകൾ (tool calls) നൽകിയേക്കാം.
ഫലങ്ങൾ ഒരു പാറ്റേൺ കാണിക്കുന്നു. അനിശ്ചിതത്വങ്ങൾക്കിടയിൽ പല മോഡലുകളും ലളിതമായ കെണികളിൽ വീഴുന്നു. ഭൂരിഭാഗവും ആക്രമണാത്മകമായ സൈനിക നീക്കങ്ങളാണ് തിരഞ്ഞെടുത്തത്. നയതന്ത്ര ചർച്ചകൾ നടന്നെങ്കിലും കരാറുകൾ അപൂർണ്ണമായിത്തന്നെ നിന്നു. മോശം സ്റ്റേറ്റ് ട്രാക്കിംഗിൽ നിന്നാണ് പല പിഴവുകളും ഉണ്ടായത്.
സാധാരണ ബെഞ്ച്മാർക്കുകൾക്ക് ഈ പരാജയങ്ങൾ കണ്ടെത്താൻ കഴിയില്ല. ഒരു മോഡലിന് മികച്ച വിശദീകരണം എഴുതാൻ കഴിഞ്ഞേക്കാം, എന്നാൽ മറഞ്ഞിരിക്കുന്ന ഒരു യൂണിറ്റിനെ ട്രാക്ക് ചെയ്യാൻ അതിന് കഴിഞ്ഞെന്നു വരില്ല. സാഹചര്യം മോഡലിനെ പ്രവർത്തിക്കാൻ നിർബന്ധിക്കുമ്പോൾ മാത്രമേ ഇത് തിരിച്ചറിയാൻ കഴിയൂ.
നിലവിലെ AI ഗവേഷണങ്ങൾ പലപ്പോഴും ടൂൾ ഉപയോഗത്തിലാണ് (tool use) ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്. ടൂൾ ഉപയോഗം ആവശ്യമാണ്, പക്ഷേ അത് മാത്രം പോരാ. ഒരു യഥാർത്ഥ ഏജന്റിന് സാഹചര്യങ്ങൾ മാറുന്നതിനനുസരിച്ച് കോൺടെക്സ്റ്റ് (context) നിലനിർത്താനും സാഹചര്യങ്ങളോട് പൊരുത്തപ്പെടാനും കഴിയണം.
വ്യവസായം ചാറ്റ് ഗുണനിലവാരത്തിൽ നിന്ന് ഫലങ്ങളിലേക്ക് (outcomes) മാറിക്കൊണ്ടിരിക്കുകയാണ്. ഉപയോഗപ്രദമായ സിസ്റ്റങ്ങളെ അളക്കുന്നത് അവ എത്രത്തോളം മികച്ച ഭാഷയിൽ എഴുതുന്നു എന്നതിനാലല്ല, മറിച്ച് അവ ജോലി പൂർത്തിയാക്കുന്നുണ്ടോ എന്നതിനാലാണ്.
ഒരു ഏജന്റിന് ഒരു 'ബിലീഫ് സ്റ്റേറ്റ്' (belief state) നിലനിർത്താൻ കഴിയില്ലെങ്കിൽ, അതിന് തന്ത്രപരമായ നീക്കങ്ങൾ നടത്താൻ കഴിയില്ല. അതിന് ഒരു സ്കീമ (schema) പിന്തുടരാൻ കഴിയില്ലെങ്കിൽ, അതിന്റെ ടൂൾ ഉപയോഗം അസ്ഥിരമായിരിക്കും.
യഥാർത്ഥ ഏജന്റിക് ശേഷിക്ക് രണ്ട് കാര്യങ്ങൾ ആവശ്യമാണ്:
- പ്ലാൻ ചെയ്യാനുള്ള കഴിവ്.
- അനിശ്ചിതത്വങ്ങൾക്കിടയിലും പ്രവർത്തിക്കാനുള്ള കഴിവ്.
സോഫ്റ്റ്വെയറിൽ, മോശം ഔട്ട്പുട്ട് ഒരു ബഗ്ഗ് (bug) ആണ്. എന്നാൽ AI ഏജന്റുകളിൽ, മോശം ഔട്ട്പുട്ട് പലപ്പോഴും ഒരു നിശബ്ദ പരാജയമാണ് (silent failure). ഒരു ടൂൾ കോൾ ഒന്നും ചെയ്യുന്നില്ലായിരിക്കാം, അല്ലെങ്കിൽ ഒരു മറഞ്ഞിരിക്കുന്ന അനുമാനം തെറ്റായിരിക്കാം. നിങ്ങൾ അവസാന ഉത്തരം മാത്രം സ്കോർ ചെയ്യുകയാണെങ്കിൽ, നിങ്ങൾക്ക് പ്രശ്നം തിരിച്ചറിയാൻ കഴിയില്ല.
നമ്മൾ ഇവ പരിശോധിക്കണം:
- Partial observability
- Hidden state
- Long-horizon coordination
- Action validity
- Recovery from mistakes
ഈ സിസ്റ്റങ്ങൾ യഥാർത്ഥ ലോകത്ത് എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിനോട് കൂടുതൽ അടുത്ത് മൂല്യനിർണ്ണയം (evaluation) നടത്തണം.
Optional learning community: https://t.me/GyaanSetuAi
