LLM ബെഞ്ച്മാർക്കുകളുടെ കാലഘട്ടത്തിൽ ഏജന്റിക് AI വിലയിരുത്തൽ

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialകഴിഞ്ഞ ആഴ്‌ച2min read

LLM ബെഞ്ച്മാർക്കുകളുടെ കാലഘട്ടത്തിൽ ഏജന്റിക് AI വിലയിരുത്തൽ

LLM ബെഞ്ച്മാർക്കുകളുടെ കാലഘട്ടത്തിൽ ഏജന്റിക് AI-യെ വിലയിരുത്തുന്നു

മിക്ക AI പരീക്ഷണങ്ങളും ലളിതമായ ഒരു രീതിയാണ് പിന്തുടരുന്നത്. നിങ്ങൾ ഒരു മോഡലിന് ഒരു പ്രോംപ്റ്റ് നൽകുന്നു. ഉത്തരം ഒരു റഫറൻസുമായി താരതമ്യം ചെയ്യുന്നു. ഫലം സ്കോർ ചെയ്യുന്നു.

ഇത് സംഗ്രഹങ്ങൾക്കും (summaries) വർഗ്ഗീകരണത്തിനും (classification) അനുയോജ്യമാണ്. എന്നാൽ മാറിക്കൊണ്ടിരിക്കുന്ന ഒരു സാഹചര്യത്തിൽ ഒരു മോഡൽ പ്രവർത്തിക്കേണ്ടി വരുമ്പോൾ ഇത് പരാജയപ്പെടുന്നു.

'The Age of LLM' എന്ന പേപ്പർ ഇതിനൊരു മികച്ച മാർഗ്ഗം അവതരിപ്പിക്കുന്നു. ഇത് ഒരു ഗ്രിഡിലുള്ള 1v1 ഗെയിമാണ്. 'ഫോഗ് ഓഫ് വാർ' (fog of war) നിലനിൽക്കുന്ന സാഹചര്യത്തിൽ രണ്ട് മോഡലുകൾ തമ്മിൽ മത്സരിക്കുന്നു. അവർക്ക് എല്ലാം കാണാൻ കഴിയില്ല. ശത്രു യൂണിറ്റുകളെ കണ്ടെത്താൻ അവർ വിവരങ്ങൾ ശേഖരിക്കുകയോ (scout) ഊഹിക്കുകയോ വേണം. ഇടപാടുകളോ അന്ത്യശാസനങ്ങളോ നിർദ്ദേശിക്കാൻ അവർ നയതന്ത്രം (diplomacy) ഉപയോഗിക്കണം.

ഓരോ നീക്കവും കർശനമായ ഒരു JSON schema പിന്തുടരണം. ഒരു നീക്കം നിയമവിരുദ്ധമാണെങ്കിൽ സിസ്റ്റം അത് തള്ളിക്കളയുന്നു.

ഈ പരീക്ഷണം ചില പ്രത്യേക കഴിവുകളെ അളക്കുന്നു:

State tracking: മോഡൽ കണ്ട കാര്യങ്ങളും നഷ്ടപ്പെട്ടവയും ഓർമ്മിക്കുന്നുണ്ടോ?
Belief management: അപൂർണ്ണമായ വിവരങ്ങൾ ഉപയോഗിച്ച് അത് യുക്തിസഹമായി പ്രവർത്തിക്കുന്നുണ്ടോ?
Action validity: അത് സാഹചര്യത്തിന്റെ നിയമങ്ങൾ പാലിക്കുന്നുണ്ടോ?
Long-horizon strategy: ഒരു ലക്ഷ്യത്തിലേക്ക് നയിക്കുന്ന നീക്കങ്ങളുടെ ഒരു ശ്രേണി തിരഞ്ഞെടുക്കാൻ അതിന് കഴിയുന്നുണ്ടോ?

ഒരു മോഡൽ സംസാരിക്കുമ്പോൾ വളരെ സ്വാഭാവികമായി തോന്നാമെങ്കിലും പ്രായോഗികമായി പരാജയപ്പെട്ടേക്കാം. അത് അതിന്റെ സ്റ്റേറ്റ് (state) മറന്നുപോയേക്കാം അല്ലെങ്കിൽ തെറ്റായ ടൂൾ കോളുകൾ (tool calls) നൽകിയേക്കാം.

ഫലങ്ങൾ ഒരു പാറ്റേൺ കാണിക്കുന്നു. അനിശ്ചിതത്വങ്ങൾക്കിടയിൽ പല മോഡലുകളും ലളിതമായ കെണികളിൽ വീഴുന്നു. ഭൂരിഭാഗവും ആക്രമണാത്മകമായ സൈനിക നീക്കങ്ങളാണ് തിരഞ്ഞെടുത്തത്. നയതന്ത്ര ചർച്ചകൾ നടന്നെങ്കിലും കരാറുകൾ അപൂർണ്ണമായിത്തന്നെ നിന്നു. മോശം സ്റ്റേറ്റ് ട്രാക്കിംഗിൽ നിന്നാണ് പല പിഴവുകളും ഉണ്ടായത്.

സാധാരണ ബെഞ്ച്മാർക്കുകൾക്ക് ഈ പരാജയങ്ങൾ കണ്ടെത്താൻ കഴിയില്ല. ഒരു മോഡലിന് മികച്ച വിശദീകരണം എഴുതാൻ കഴിഞ്ഞേക്കാം, എന്നാൽ മറഞ്ഞിരിക്കുന്ന ഒരു യൂണിറ്റിനെ ട്രാക്ക് ചെയ്യാൻ അതിന് കഴിഞ്ഞെന്നു വരില്ല. സാഹചര്യം മോഡലിനെ പ്രവർത്തിക്കാൻ നിർബന്ധിക്കുമ്പോൾ മാത്രമേ ഇത് തിരിച്ചറിയാൻ കഴിയൂ.

നിലവിലെ AI ഗവേഷണങ്ങൾ പലപ്പോഴും ടൂൾ ഉപയോഗത്തിലാണ് (tool use) ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്. ടൂൾ ഉപയോഗം ആവശ്യമാണ്, പക്ഷേ അത് മാത്രം പോരാ. ഒരു യഥാർത്ഥ ഏജന്റിന് സാഹചര്യങ്ങൾ മാറുന്നതിനനുസരിച്ച് കോൺടെക്സ്റ്റ് (context) നിലനിർത്താനും സാഹചര്യങ്ങളോട് പൊരുത്തപ്പെടാനും കഴിയണം.

വ്യവസായം ചാറ്റ് ഗുണനിലവാരത്തിൽ നിന്ന് ഫലങ്ങളിലേക്ക് (outcomes) മാറിക്കൊണ്ടിരിക്കുകയാണ്. ഉപയോഗപ്രദമായ സിസ്റ്റങ്ങളെ അളക്കുന്നത് അവ എത്രത്തോളം മികച്ച ഭാഷയിൽ എഴുതുന്നു എന്നതിനാലല്ല, മറിച്ച് അവ ജോലി പൂർത്തിയാക്കുന്നുണ്ടോ എന്നതിനാലാണ്.

ഒരു ഏജന്റിന് ഒരു 'ബിലീഫ് സ്റ്റേറ്റ്' (belief state) നിലനിർത്താൻ കഴിയില്ലെങ്കിൽ, അതിന് തന്ത്രപരമായ നീക്കങ്ങൾ നടത്താൻ കഴിയില്ല. അതിന് ഒരു സ്കീമ (schema) പിന്തുടരാൻ കഴിയില്ലെങ്കിൽ, അതിന്റെ ടൂൾ ഉപയോഗം അസ്ഥിരമായിരിക്കും.

യഥാർത്ഥ ഏജന്റിക് ശേഷിക്ക് രണ്ട് കാര്യങ്ങൾ ആവശ്യമാണ്:

പ്ലാൻ ചെയ്യാനുള്ള കഴിവ്.
അനിശ്ചിതത്വങ്ങൾക്കിടയിലും പ്രവർത്തിക്കാനുള്ള കഴിവ്.

സോഫ്റ്റ്‌വെയറിൽ, മോശം ഔട്ട്പുട്ട് ഒരു ബഗ്ഗ് (bug) ആണ്. എന്നാൽ AI ഏജന്റുകളിൽ, മോശം ഔട്ട്പുട്ട് പലപ്പോഴും ഒരു നിശബ്ദ പരാജയമാണ് (silent failure). ഒരു ടൂൾ കോൾ ഒന്നും ചെയ്യുന്നില്ലായിരിക്കാം, അല്ലെങ്കിൽ ഒരു മറഞ്ഞിരിക്കുന്ന അനുമാനം തെറ്റായിരിക്കാം. നിങ്ങൾ അവസാന ഉത്തരം മാത്രം സ്കോർ ചെയ്യുകയാണെങ്കിൽ, നിങ്ങൾക്ക് പ്രശ്നം തിരിച്ചറിയാൻ കഴിയില്ല.

നമ്മൾ ഇവ പരിശോധിക്കണം:

Partial observability
Hidden state
Long-horizon coordination
Action validity
Recovery from mistakes

ഈ സിസ്റ്റങ്ങൾ യഥാർത്ഥ ലോകത്ത് എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിനോട് കൂടുതൽ അടുത്ത് മൂല്യനിർണ്ണയം (evaluation) നടത്തണം.

Source: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Optional learning community: https://t.me/GyaanSetuAi

LLM ബെഞ്ച്മാർക്കുകളുടെ കാലഘട്ടത്തിൽ ഏജന്റിക് AI വിലയിരുത്തൽ

LLM ബെഞ്ച്മാർക്കുകളുടെ കാലഘട്ടത്തിൽ ഏജന്റിക് AI-യെ വിലയിരുത്തുന്നു

Continue reading

AI ഏജന്റുകളുടെ സ്കോറിംഗ്: ഡിറ്റർമിനിസ്റ്റിക് മെട്രിക്സും ഒരു LLM ജഡ്ജും

AI ഏജന്റിന്റെ പ്രവർത്തനങ്ങൾ തീരുമാനിക്കാൻ ഒരു LLM ഉപയോഗിക്കരുത്

ഏജന്റിക് ലൂപ്പ്: ഒരു പ്രായോഗിക ഫീൽഡ് ഗൈഡ്

AI Agent Evaluation Ends Too Early

Observability in Agentic AI