പ്രായോഗികമായി AI ഏജന്റുകൾ: ട്രേസുകളിൽ നിന്നുള്ള പരാജയങ്ങൾ വിശകലനം ചെയ്യാം
നിങ്ങളുടെ AI ഏജന്റ് ക്രാഷ് ആകില്ല. അത് വിജയം റിപ്പോർട്ട് ചെയ്യും. എന്നാൽ നിങ്ങളുടെ ബാങ്ക് അക്കൗണ്ടിൽ ഒരു പിശക് കാണാം.
റദ്ദാക്കാത്ത ഒരു ഓർഡറിനായി റീഫണ്ട് നൽകപ്പെട്ടു. ഉപഭോക്താവിന് സാധനവും പണവും ലഭിച്ചു. ഏജന്റ് തന്റെ ജോലി കൃത്യമായി ചെയ്തു എന്നാണ് കരുതിയത്.
ഇതിനായി വലിയൊരു മോഡൽ ഉപയോഗിക്കാൻ ശ്രമിക്കരുത്. വെറുതെ ഒരു റീട്രൈ ലൂപ്പ് (retry loop) മാത്രം ചേർക്കരുത്. ഇവ രണ്ടും വെറും ഊഹങ്ങൾ മാത്രമാണ്.
പകരം, ട്രേസ് (trace) വായിക്കുക. ഏജന്റ് എന്താണ് ചെയ്തതെന്ന് അത് നേരത്തെ തന്നെ രേഖപ്പെടുത്തിയിട്ടുണ്ട്.
മികച്ച ഒരു പ്രൊഡക്ഷൻ ട്രേസ് ലൂപ്പിന്റെ ഓരോ ഘട്ടവും രേഖപ്പെടുത്തണം. അതിൽ താഴെ പറയുന്നവ ഉണ്ടായിരിക്കണം:
- ഏജന്റ് എന്താണ് നിരീക്ഷിച്ചത്
- അത് എന്താണ് തീരുമാനിച്ചത്
- ഏത് ടൂൾ ആണ് ഉപയോഗിച്ചത്
- ടൂൾ എന്താണ് മറുപടിയായി നൽകിയത്
- സോഴ്സ് ഓഫ് ട്രൂത്തിൽ (source of truth) നിന്നുള്ള വെരിഫിക്കേഷൻ റീഡ്
- അവസാന അവസ്ഥയും ചിലവും (final state and cost)
ടൂൾ നൽകുന്ന മറുപടിയും വെരിഫിക്കേഷൻ റീഡും തമ്മിലുള്ള വ്യത്യാസമാണ് ഏറ്റവും പ്രധാനപ്പെട്ട ഭാഗം. ഒരു ടൂൾ "accepted" എന്ന് പറഞ്ഞേക്കാം, പക്ഷേ അതിനർത്ഥം മാറ്റം സംഭവിച്ചു എന്നല്ല. ആ മാറ്റം യഥാർത്ഥത്തിൽ നടന്നോ എന്ന് വെരിഫിക്കേഷൻ റീഡ് പറഞ്ഞുതരും.
പരാജയങ്ങളെ സാധാരണയായി രണ്ട് വിഭാഗങ്ങളായി തിരിക്കാം:
- എക്സിക്യൂഷൻ പരാജയങ്ങൾ (Execution Failures)
- ടൂൾ പരാജയങ്ങൾ: തെറ്റായ ആർഗ്യുമെന്റുകൾ അല്ലെങ്കിൽ ടൈമൗട്ട് (timeouts).
- റീസണിംഗ് പരാജയങ്ങൾ: മോഡൽ തെറ്റായ നടപടി തിരഞ്ഞെടുത്തു.
- കൺട്രോൾ-സ്റ്റേറ്റ് പരാജയങ്ങൾ: ഏജന്റ് ഒരു കള്ളം വിശ്വസിക്കുന്നു. ഡാറ്റാബേസിൽ മറ്റൊന്നാണെങ്കിൽ പോലും, ടൂൾ പറഞ്ഞതുകൊണ്ട് ഒരു ഓർഡർ റദ്ദാക്കിയെന്ന് ഏജന്റ് കരുതുന്നു.
- സ്ട്രക്ചറൽ ലൂപ്പ് പരാജയങ്ങൾ (Structural Loop Failures)
- കോൺടെക്സ്റ്റ് ഡിഗ്രഡേഷൻ (Context degradation): ഏജന്റിന് കാര്യങ്ങൾ വ്യക്തതയില്ലാതെ വരുന്നു.
- ലൂപ്പ് റൺവേ (Loop runaway): പുരോഗതിയില്ലാതെ ഏജന്റ് ഒരേ ഘട്ടങ്ങൾ തന്നെ ആവർത്തിക്കുന്നു.
- സൈലന്റ് സ്റ്റാൾസ് (Silent stalls): ഒരു എറർ പോലും കാണിക്കാതെ ഏജന്റ് നിശ്ചലമാകുന്നു. ഇത്തരം നിശബ്ദതയെ ഒരു പരാജയമായി കണക്കാക്കാൻ നിങ്ങൾക്ക് ഒരു വാച്ച്ഡോഗ് (watchdog) ആവശ്യമാണ്.
ഒരു പരാജയം കണ്ടെത്തുമ്പോൾ, വെറുതെ റീട്രൈ (retry) ചെയ്യരുത്. റീട്രൈ എന്നത് ഒരു തന്ത്രമാണ്, രോഗനിർണ്ണയമല്ല.
- ടൈമൗട്ട് പോലുള്ള താൽക്കാലിക പിശകുകളാണെങ്കിൽ, റീട്രൈ ചെയ്യുക.
- ലോജിക് പിശകുകളാണെങ്കിൽ, റീട്രൈ ചെയ്യുന്നത് ഒരേ തടസ്സത്തിൽ തന്നെ വീണ്ടും തട്ടി ബജറ്റ് പാഴാക്കാൻ മാത്രമേ സഹായിക്കൂ.
- ഏജന്റ് ഒരു തടസ്സത്തിൽ എത്തിയാൽ, പ്രവർത്തനം നിർത്തി ഒരു മനുഷ്യനെ അറിയിക്കുക.
ഒരു പരാജയം പരിഹരിക്കാനുള്ള ഏറ്റവും നല്ല മാർഗ്ഗം അതിനെ ഒരു ടെസ്റ്റാക്കി മാറ്റുക എന്നതാണ്.
ഒരു ഗ്രേഡർ (grader) എഴുതാൻ ട്രേസ് ഉപയോഗിക്കുക. ഒരു ക്യാൻസലേഷൻ വെരിഫൈ ചെയ്യാൻ ഏജന്റ് പരാജയപ്പെട്ടാൽ, കൺഫേം ചെയ്ത ക്യാൻസലേഷൻ സ്റ്റാറ്റസ് ഇല്ലാതെ ഒരു റീഫണ്ട് നടന്നാൽ പരാജയപ്പെടുന്ന രീതിയിലുള്ള ഒരു ടെസ്റ്റ് എഴുതുക. നിങ്ങൾ പണം നൽകി നേരിട്ട പരാജയങ്ങളെ, ഇനി ഒരിക്കലും പണം നഷ്ടപ്പെടാത്ത പരാജയങ്ങളാക്കി മാറ്റുക.
Optional learning community: https://t.me/GyaanSetuAi
