𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻
നിങ്ങളുടെ സ്റ്റേജിംഗ് എൻവയോൺമെന്റിൽ (staging environment) നിങ്ങളുടെ AI ഏജന്റ് കൃത്യമായി പ്രവർത്തിച്ചു. ഡെമോകൾ മികച്ചതായിരുന്നു. പ്രൊഡക്റ്റ് മാനേജർ സന്തോഷവാനായിരുന്നു.
പിന്നീട് നിങ്ങൾ അത് പ്രൊഡക്ഷനിലേക്ക് എത്തിച്ചു.
മൂന്നാഴ്ചയ്ക്ക് ശേഷം, നിങ്ങൾക്ക് ബഗ് റിപ്പോർട്ടുകൾ ലഭിക്കുന്നു. ഏജന്റ് നൽകുന്ന ഉത്തരങ്ങൾ ശരിയാണെന്ന് തോന്നുമെങ്കിലും അവ പൂർണ്ണമായും തെറ്റായിരിക്കും.
2025-ൽ ഇത് സംഭവിക്കുന്നത് ഞാൻ കണ്ടു. ഒരു ടീം വികസിപ്പിച്ച ഏജന്റ് എൻ്റർപ്രൈസ് ഉപഭോക്താക്കൾക്കായി ഉൽപ്പന്ന വിലകളിൽ തെറ്റായ വിവരങ്ങൾ (hallucinated) നൽകി. ഏജന്റിന്റെ കോൺഫിഡൻസ് സ്കോർ (confidence score) 0.94 എന്ന ഉയർന്ന നിലയിലായിരുന്നു. എന്നാൽ യഥാർത്ഥ കൃത്യത (accuracy) വെറും 60% മാത്രമായിരുന്നു.
ഒരു ഇവാലുവേഷൻ പൈപ്പ്ലൈൻ (evaluation pipeline) ഇല്ലാതിരുന്നതുകൊണ്ടാണ് ആ ടീം പരാജയപ്പെട്ടത്. അവർ വെറും പ്രതീക്ഷയിൽ മാത്രം ആശ്രയിച്ചു.
പ്രതീക്ഷ എന്നത് ഒരു ഡിപ്ലോയ്മെന്റ് സ്ട്രാറ്റജി (deployment strategy) അല്ല.
മിക്ക ടീമുകളും അവരുടെ സമയം മുഴുവൻ ഏജന്റ് ആർക്കിടെക്ചറിനായി (agent architecture) ചെലവഴിക്കുന്നു. അവർ ടൂൾ ഡെഫനിഷനുകൾ (tool definitions), പ്രോംപ്റ്റുകൾ (prompts), ലോജിക് എന്നിവയിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. അവർ പ്രൊഡക്റ്റ് പുറത്തിറക്കുന്നു, എന്നിട്ട് പ്രാർത്ഥിക്കുന്നു.
ഇത് 'മെഷർമെന്റ് തിയേറ്ററിലേക്ക്' (Measurement Theater) നയിക്കുന്നു. യഥാർത്ഥ പരാജയങ്ങൾ കണ്ടെത്താതെ, ഏജന്റിനെ മികച്ചതായി കാണിക്കാൻ ഡാഷ്ബോർഡുകളും ടെസ്റ്റ് സ്യൂട്ടുകളും ഉപയോഗിക്കുന്ന അവസ്ഥയാണിത്. യഥാർത്ഥ ഉപഭോക്താക്കളുടെ ചോദ്യങ്ങളിൽ ഏജന്റ് 30% പരാജയപ്പെടുമ്പോൾ, ബെഞ്ച്മാർക്കുകളിൽ (benchmarks) 95% കൃത്യത ലഭിച്ചതിൽ നിങ്ങൾ ആഘോഷിക്കുന്നു.
നിങ്ങൾ സ്റ്റാറ്റിക് ബെഞ്ച്മാർക്കുകളിൽ (static benchmarks) നിന്ന് SkillOps-ലേക്ക് മാറേണ്ടതുണ്ട്. ഇതിനർത്ഥം മുഴുവൻ ഏജന്റിനെയും പരിശോധിക്കുന്നതിന് പകരം ഏജന്റിന്റെ പ്രത്യേക കഴിവുകളെ (skills) വിലയിരുത്തുക എന്നതാണ്.
ഏജന്റ് പ്രവർത്തിക്കുന്നുണ്ടോ എന്ന് ചോദിക്കുന്നത് നിർത്തുക. ഏത് പ്രത്യേക കഴിവുകളാണ് പരാജയപ്പെടുന്നത് എന്നും എന്തുകൊണ്ട് എന്ന് ചോദിച്ചു തുടങ്ങുക.
പ്രൊഡക്ഷൻ ദുരന്തങ്ങൾ ഒഴിവാക്കാൻ ഈ ഫ്രെയിംവർക്ക് ഉപയോഗിക്കുക:
പുറത്തിറക്കുന്നതിന് മുമ്പ് 'മതിയായ നിലവാരം' (good enough) നിർവചിക്കുക. ഓരോ കഴിവിനും കൃത്യതയുടെ പരിധികൾ (accuracy thresholds) നിശ്ചയിക്കുക. ഒരു സംഗ്രഹത്തിന് (summary) 85% കൃത്യത മതിയാകാം. എന്നാൽ വില നിശ്ചയിക്കുന്നതിൽ (pricing) 85% കൃത്യത എന്നത് നിങ്ങൾക്ക് സാമ്പത്തിക നഷ്ടമുണ്ടാക്കും.
യഥാർത്ഥ ജീവിതത്തെ പ്രതിഫലിപ്പിക്കുന്ന ഡാറ്റ നിർമ്മിക്കുക. ഉപഭോക്താക്കൾ ചോദിക്കാൻ നിങ്ങൾ ആഗ്രഹിക്കുന്നത് പോലെയല്ല, മറിച്ച് അവർ യഥാർത്ഥത്തിൽ ചോദിക്കുന്നത് എന്താണോ അത് നിങ്ങളുടെ ടെസ്റ്റുകളിൽ പ്രതിഫലിക്കണം.
ആദ്യ ദിവസം മുതൽ റിഗ്രഷനുകൾ (regressions) കണ്ടെത്തുക. ഓരോ പ്രോംപ്റ്റ് മാറ്റവും അല്ലെങ്കിൽ ടൂൾ അപ്ഡേറ്റും ഡിപ്ലോയ് ചെയ്യുന്നതിന് മുമ്പ് ഒരു ഓട്ടോമേറ്റഡ് ടെസ്റ്റ് (automated test) നിർബന്ധമായും നടത്തണം.
കൃത്യത മാത്രമല്ല, കോൺഫിഡൻസും (confidence) നിരീക്ഷിക്കുക. തെറ്റായ ഉത്തരങ്ങൾ നൽകുന്ന അമിത ആത്മവിശ്വാസമുള്ള ഒരു ഏജന്റിനേക്കാൾ സുരക്ഷിതമാണ്, താൻ എപ്പോഴാണ് തെറ്റുപറ്റുന്നത് എന്ന് അറിയുന്ന ഒരു ഏജന്റ്.
ഫെയിലിയർ ബഡ്ജറ്റുകൾ (failure budgets) തയ്യാറാക്കുക. പുറത്തിറക്കുന്നതിന് മുമ്പ് ഓരോ കഴിവിനും എത്രത്തോളം പരാജയം നിങ്ങൾക്ക് സഹിക്കാനാകും എന്ന് തീരുമാനിക്കുക.
2026 അവസാനത്തോടെ, ഏജന്റ് ഇവാലുവേഷൻ (agent evaluation) ഡിപ്ലോയ്മെന്റിന്റെ ഒരു സാധാരണ ഭാഗമായി മാറും. ഈ ഫ്രെയിംവർക്കുകൾ ഉപയോഗിക്കുന്ന ടീമുകൾ വേഗത്തിൽ ഉൽപ്പന്നങ്ങൾ പുറത്തിറക്കും. ഉപയോഗിക്കാത്ത ടീമുകൾ "അത് സ്റ്റേജിംഗിൽ പ്രവർത്തിച്ചിരുന്നു" എന്ന് പറഞ്ഞ് കൊണ്ടിരിക്കും.
നിങ്ങളുടെ ടീം AI ഏജന്റുകൾക്കായി ഇവാലുവേഷൻ ഇൻഫ്രാസ്ട്രക്ചർ (evaluation infrastructure) നിർമ്മിച്ചിട്ടുണ്ടോ? ഏത് മെട്രിക്സുകളാണ് (metrics) നിങ്ങളുടെ പരാജയങ്ങൾ കണ്ടെത്തിയത്?
താഴെ കമന്റ് ചെയ്യുക. ഞാൻ എല്ലാത്തിനും മറുപടി നൽകുന്നതാണ്.
Optional learning community: https://t.me/GyaanSetuAi