നിങ്ങളുടെ CI വിജയിച്ചു. പക്ഷേ നിങ്ങളുടെ ഏജന്റ് ഓപ്പറേറ്റർ ഉപയോഗിക്കാൻ പാകത്തിലുള്ളതല്ല
കഴിഞ്ഞ പാദത്തിൽ ഞങ്ങൾ ഒരു ഡോക്യുമെന്റ് ഏജന്റ് ഒരു എന്റർപ്രൈസ് ക്ലയന്റിന് നൽകി.
ഞങ്ങളുടെ ടെസ്റ്റ് സ്യൂട്ട് 94% പാസ് റേറ്റ് കാണിച്ചു.
പൈലറ്റ് പ്രോജക്റ്റിന്റെ മൂന്നാം ആഴ്ചയിൽ, ഏജന്റ് വായിക്കാൻ കഴിയാത്ത ഇൻവോയ്സുകൾക്കായി റീഫണ്ട് നൽകാൻ തുടങ്ങി. ഇത് വളരെ നിശബ്ദമായാണ് സംഭവിച്ചത്. യാതൊരു പിശകുകളോ (errors) ലോഗുകളോ ഉണ്ടായിരുന്നില്ല. ഏജന്റ് ശരിയാണെന്ന് തോന്നിക്കുന്ന തെറ്റായ ഉത്തരങ്ങൾ നൽകുകയായിരുന്നു.
ആ സമയമത്രയും ഞങ്ങളുടെ CI ഗ്രീൻ സ്റ്റാറ്റസിലായിരുന്നു.
പ്രശ്നം മോഡലോ പ്രോംപ്റ്റോ ആയിരുന്നില്ല. ഞങ്ങൾ ടെസ്റ്റ് ചെയ്യാത്ത ആ 6% ഡാറ്റയായിരുന്നു പ്രശ്നം. ഓപ്പറേറ്ററിൽ നിന്നുള്ള ആദ്യത്തെ യഥാർത്ഥ ഡാറ്റയായി ആ 6% എത്തിച്ചേർന്നു.
ഇതൊരു എഡ്ജ് കേസ് (edge case) അല്ല. ഓപ്പറേറ്റർ റെഡി (operator-ready) ആകുക എന്നതിന്റെ നിർവചനമാണത്.
പ്രൊഡക്ഷൻ റെഡി (Production-ready) എന്നത് ഇൻഫ്രാസ്ട്രസ്ട്രെ സംബന്ധിച്ചതാണ്. നിങ്ങളുടെ സർവീസ് തടസ്സമില്ലാതെ പ്രവർത്തിക്കുന്നുവെന്നും ലോഡ് കൈകാര്യം ചെയ്യുന്നുവെന്നും ഇതിനർത്ഥം.
ഓപ്പറേറ്റർ റെഡി എന്നത് വ്യത്യസ്തമാണ്. ഇത് നിർമ്മിക്കാത്ത ഒരാൾക്ക് വേണ്ടി നിങ്ങളുടെ ഏജന്റ് പ്രവർത്തിക്കുന്നു എന്നാണ് ഇതിനർത്ഥം. നിങ്ങൾ രൂപകൽപ്പന ചെയ്യാത്ത ഡാറ്റയിൽ അത് പ്രവർത്തിക്കുന്നു. യഥാർത്ഥ പ്രത്യാഘാതങ്ങളുള്ള തീരുമാനങ്ങൾ അത് എടുക്കുന്നു.
മിക്ക ടെസ്റ്റ് പൈപ്പ്ലൈനുകളും നിങ്ങൾ തയ്യാറാക്കിയ ഒരു സെറ്റിലെ പാസ് റേറ്റ് അളക്കുകയാണ് ചെയ്യുന്നത്. യഥാർത്ഥ ഡാറ്റ നിങ്ങളുടെ ടെസ്റ്റ് സെറ്റിൽ നിന്ന് വ്യത്യസ്തമാകുമ്പോൾ എന്ത് സംഭവിക്കുമെന്ന് അവ അളക്കുന്നില്ല.
97% വാലിഡേഷൻ വിജയമുള്ള ഒരു മോഡൽ കേൾക്കുമ്പോൾ നല്ലതായി തോന്നാം. എന്നാൽ പരാജയപ്പെടുന്ന ആ 3% ശ്രദ്ധിക്കുക.
റീട്രൈ (retry) ചെയ്യുമ്പോൾ നിങ്ങളുടെ ഏജന്റ് വിട്ടുപോയ ഫീൽഡുകൾ ഡിഫോൾട്ട് വാല്യൂസ് ഉപയോഗിച്ച് പൂരിപ്പിക്കുകയാണെങ്കിൽ, നിങ്ങൾ ഒരു നിശബ്ദ പിശക് യന്ത്രമാണ് (silent error machine) നിർമ്മിച്ചിരിക്കുന്നത്. സ്കീമ (schema) വിജയിച്ചേക്കാം, പക്ഷേ ഡാറ്റ തെറ്റായിരിക്കും.
ഇത് പരിഹരിക്കാൻ, സ്കീമയുടെ സാധുതയെ (schema validity) കണ്ടന്റ് കോൺഫിഡൻസിൽ (content confidence) നിന്ന് വേർതിരിക്കുക.
ഞങ്ങൾ ഓരോ മറുപടിയോടും ഒരു കോൺഫിഡൻസ് സ്കോർ (confidence score) ചേർത്തു. കുറഞ്ഞ കോൺഫിഡൻസ് ഉള്ളപ്പോൾ റീട്രൈ ചെയ്യുന്നതിന് പകരം ഇപ്പോൾ ഒരു ഹ്യൂമൻ റിവ്യൂ (human review) ആവശ്യപ്പെടുന്നു. ഈ മാറ്റം ഞങ്ങളുടെ ആദ്യത്തെ 18 സംഭവങ്ങളിൽ 14 എണ്ണവും കണ്ടെത്തി.
നിങ്ങളുടെ ടെസ്റ്റ് സെറ്റ് നിങ്ങൾ ചിന്തിച്ച കാര്യങ്ങളെ ഉൾക്കൊള്ളുന്നു. എന്നാൽ ഓപ്പറേറ്ററുടെ ഡാറ്റ നിങ്ങൾ വിട്ടുപോയ കാര്യങ്ങളെ ഉൾക്കൊള്ളുന്നു.
ഞങ്ങളുടെ കാര്യത്തിൽ, ഞങ്ങൾ ഒറ്റ പേജുള്ള ഇൻവോയ്സുകളാണ് ടെസ്റ്റ് ചെയ്തത്. എന്നാൽ ഓപ്പറേറ്റർ സ്കാൻ ചെയ്ത പിഡിഎഫുകൾ അടങ്ങിയ മൾട്ടി-പേജ് ഇൻവോയ്സുകളാണ് ഉപയോഗിച്ചത്. പുതിയ ഫോർമാറ്റിൽ ഏജന്റ് പരാജയപ്പെട്ടു.
പാഴ്സർ (parser) മാത്രം ശരിയാക്കിയാൽ പോരാ. ലൈവ് ആയിക്കുന്നതിന് മുമ്പ് യഥാർത്ഥ ഓപ്പറേറ്ററുടെ ഡാറ്റ ഉപയോഗിച്ച് ടെസ്റ്റ് ചെയ്യുക.
കൈമാറുന്നതിന് മുമ്പ്, ഓപ്പറേറ്ററുടെ സ്വന്തം ഡാറ്റയിൽ നിന്നുള്ള 50 ഡോക്യുമെന്റുകൾ ഞങ്ങൾ ഇപ്പോൾ ആവശ്യപ്പെടുന്നു. ഞങ്ങൾ സിന്തറ്റിക് ഡാറ്റ (synthetic data) ഉപയോഗിക്കുന്നില്ല. അവരുടെ ഡാറ്റയാണ് ഉപയോഗിക്കുന്നത്.
നിങ്ങൾക്ക് ഒരു സമ്പൂർണ്ണ ഓഡിറ്റ് ട്രെയ്ലും (audit trail) ആവശ്യമാണ്. മോഡൽ നൽകിയ മറുപടി മാത്രം ലോഗ് ചെയ്യരുത്. മോഡൽ ചെയ്യാതിരിക്കാൻ തീരുമാനിച്ച കാര്യങ്ങളും ലോഗ് ചെയ്യുക.
ഒരു മിനിമം ഓഡിറ്റ് ട്രെയ്ലിന് ഇവ ആവശ്യമാണ്:
- ഫീൽഡ് ലെവൽ കോൺഫിഡൻസ് സ്കോറുകൾ ഉള്ള ഔട്ട്പുട്ട്
- ഏജന്റ് റീട്രൈ ചെയ്തോ എന്ന് കാണിക്കുന്ന ഒരു ഫോളബാക്ക് ഇൻഡിക്കേറ്റർ (fallback indicator)
- കൃത്യമായ ഡോക്യുമെന്റ് വീണ്ടും പ്ലേ ചെയ്യാൻ ഒരു ഇൻപുട്ട് ഹാഷ് (input hash)
- ഉപയോഗിച്ച പ്രത്യേക മോഡലും പ്രോംപ്റ്റ് വേർഷനും
ഒരു ഏജന്റ് ഓപ്പറേറ്റർക്ക് നൽകുന്നതിന് മുമ്പ്, ഈ അഞ്ച് കാര്യങ്ങൾ പരിശോധിക്കുക:
- ഓപ്പറേറ്ററുടെ യഥാർത്ഥ ഡാറ്റയിൽ നിന്നുള്ള 50-ലധികം സാമ്പിളുകൾ റൺ ചെയ്യുക.
- സ്കീമ പരിശോധനകൾ വിജയിച്ചുവെങ്കിലും ഡൗൺസ്ട്രീം പിശകുകൾക്ക് (downstream errors) കാരണമായ ഔട്ട്പുട്ടുകൾക്കായി ലോഗുകൾ പരിശോധിക്കുക.
- ഏജന്റ് സുരക്ഷിതമായി പരാജയപ്പെടുന്നുണ്ടെന്ന് ഉറപ്പാക്കാൻ തെറ്റായ ഇൻപുട്ടുകൾ (malformed inputs) നൽകുക.
- ഒരു പ്രത്യേക ഡോക്യുമെന്റിന് എന്ത് സംഭവിച്ചു എന്ന് 5 മിനിറ്റിനുള്ളിൽ മറുപടി നൽകാൻ കഴിയുന്നുണ്ടെന്ന് ഉറപ്പാക്കുക.
- ഏജന്റിന് ഏറ്റവും കുറഞ്ഞ അനുമതികൾ (permissions) മാത്രമേ നൽകിയിട്ടുള്ളൂ എന്ന് പരിശോധിക്കുക.
ഞങ്ങളുടെ ടെസ്റ്റ് പാസ് റേറ്റ് 94% ആയിരുന്നു. ആദ്യ മാസത്തിലെ എറർ റേറ്റ് 8% ആയിരുന്നു.
കോൺഫിഡൻസ് സ്കോറുകളും യഥാർത്ഥ ലോക പരിശോധനകളും മെച്ചപ്പെട്ട ലോഗുകളും ചേർത്തതിന് ശേഷം, എറർ റേറ്റ് 1.4% ആയി കുറഞ്ഞു.
ടെസ്റ്റ് സ്കോർ ആയിരുന്നില്ല പ്രശ്നം. ടെസ്റ്റ് സ്കോപ്പിന്റെ വ്യാപ്തി (test scope) ആയിരുന്നു പ്രശ്നം.
Source: https://dev.to/ethanwritesai/our-ci-passed-your-agent-isnt-operator-ready-2mfn
Optional learning community: https://t.me/GyaanSetuAi
