మీ AI ఏజెంట్ అన్ని పరీక్షల్లో ఉత్తీర్ణత సాధించింది — కానీ ప్రొడక్షన్లో విఫలమైంది
మీ AI ఏజెంట్ మీ స్టేజింగ్ ఎన్విరాన్మెంట్లో (staging environment) అద్భుతంగా పనిచేసింది. డెమోలు చాలా బాగున్నాయి. ప్రొడక్ట్ మేనేజర్ కూడా సంతోషంగా ఉన్నారు.
ఆ తర్వాత మీరు దానిని ప్రొడక్షన్కు పంపారు.
మూడు వారాల తర్వాత, మీకు బగ్ రిపోర్ట్లు వస్తాయి. ఏజెంట్ ఇచ్చే సమాధానాలు వినడానికి సరైనవిగా అనిపిస్తాయి కానీ, అవి పూర్తిగా తప్పుగా ఉంటాయి.
2025లో ఇలా జరగడం నేను చూశాను. ఒక టీమ్ ఎంటర్ప్రైజ్ కస్టమర్ల కోసం ప్రొడక్ట్ ధరలను తప్పుగా ఊహించి (hallucinated) చెప్పే ఒక ఏజెంట్ను విడుదల చేసింది. ఆ ఏజెంట్ 0.94 అనే అత్యధిక కాన్ఫిడెన్స్ స్కోర్ను కలిగి ఉంది. కానీ వాస్తవ ఖచ్చితత్వం (accuracy) కేవలం 60% మాత్రమే ఉంది.
ఆ టీమ్ విఫలమైంది ఎందుకంటే వారి వద్ద ఎవల్యూషన్ పైప్లైన్ (evaluation pipeline) లేదు. వారు కేవలం ఆశ మీద ఆధారపడ్డారు.
ఆశ అనేది డిప్లాయ్మెంట్ వ్యూహం కాదు.
చాలా టీమ్లు తమ సమయాన్ని అంతా ఏజెంట్ ఆర్కిటెక్చర్ (agent architecture) పైనే గడుపుతాయి. వారు టూల్ డెఫినిషన్స్, ప్రాంప్ట్స్ మరియు లాజిక్లపై దృష్టి పెడతారు. వారు విడుదల చేస్తారు మరియు ప్రార్థిస్తారు (ship and pray).
ఇది 'మెజర్మెంట్ థియేటర్' (Measurement Theater) కు దారితీస్తుంది. అంటే, నిజమైన వైఫల్యాలను గుర్తించకుండా, ఏజెంట్ను బాగున్నట్లు చూపించడానికి మీరు డ్యాష్బోర్డ్లు మరియు టెస్ట్ సూట్లను ఉపయోగించడం. బెంచ్మార్క్లలో 95% ఖచ్చితత్వాన్ని చూసి మీరు సంబరపడతారు, కానీ ఏజెంట్ నిజమైన యూజర్ ప్రశ్నలలో 30% విఫలమవుతుంది.
మీరు స్టాటిక్ బెంచ్మార్క్ల నుండి SkillOps వైపు మళ్లాలి. అంటే మొత్తం ఏజెంట్ను కాకుండా, ఏజెంట్లోని నిర్దిష్ట నైపుణ్యాలను (specific agent skills) అంచనా వేయడం.
ఏజెంట్ పనిచేస్తుందా లేదా అని అడగడం ఆపండి. ఏ నిర్దిష్ట నైపుణ్యాలు విఫలమవుతున్నాయి మరియు ఎందుకు అని అడగడం ప్రారంభించండి.
ప్రొడక్షన్ విపత్తులను నివారించడానికి ఈ ఫ్రేమ్వర్క్ను ఉపయోగించండి:
విడుదల చేసే ముందే 'సరిపోతుంది' (good enough) అనే స్థాయిని నిర్ణయించుకోండి. ప్రతి నైపుణ్యం కోసం ఖచ్చితత్వ పరిమితులను (accuracy thresholds) నిర్ణయించండి. సమ్మరీ (summary) కోసం 85% ఖచ్చితత్వం సరిపోవచ్చు. కానీ ధరల (pricing) విషయంలో 85% ఖచ్చితత్వం ఉంటే మీకు నష్టం వస్తుంది.
నిజ జీవితాన్ని ప్రతిబింబించే డేటాను రూపొందించండి. మీ టెస్ట్లు యూజర్లు నిజంగా ఏమి అడుగుతారో దాన్ని ప్రతిబింబించాలి, మీరు వారు అడగాలని కోరుకుంటున్న ప్రశ్నలను కాదు.
మొదటి రోజు నుండే రిగ్రెషన్లను (regressions) గుర్తించండి. మీరు డిప్లాయ్ చేసే ముందు ప్రతి ప్రాంప్ట్ మార్పు లేదా టూల్ అప్డేట్ ఒక ఆటోమేటెడ్ టెస్ట్ను ట్రిగ్గర్ చేయాలి.
కేవలం ఖచ్చితత్వాన్ని మాత్రమే కాకుండా, కాన్ఫిడెన్స్ను కూడా పర్యవేక్షించండి. తప్పు ఎప్పుడు జరుగుతుందో తెలిసిన ఏజెంట్, తప్పు సమాధానాలు ఇచ్చే అతివిశ్వాసం ఉన్న ఏజెంట్ కంటే సురక్షితమైనది.
ఫెయిల్యూర్ బడ్జెట్లను (failure budgets) సృష్టించండి. విడుదల చేసే ముందు ప్రతి నైపుణ్యం కోసం మీరు ఎంత వైఫల్యాన్ని భరించగలరో నిర్ణయించుకోండి.
2026 చివరి నాటికి, ఏజెంట్ ఎవల్యూషన్ అనేది డిప్లాయ్మెంట్లో ఒక ప్రామాణిక భాగం అవుతుంది. ఈ ఫ్రేమ్వర్క్లను ఉపయోగించే టీమ్లు వేగంగా విడుదల చేస్తాయి. ఉపయోగించని టీమ్లు మాత్రం, "ఇది స్టేజింగ్లో బాగానే పనిచేసింది" అని చెబుతూనే ఉంటాయి.
మీ టీమ్ AI ఏజెంట్ల కోసం ఎవల్యూషన్ ఇన్ఫ్రాస్ట్రక్చర్ను నిర్మించిందా? ఏ మెట్రిక్స్ మీ వైఫల్యాలను నిజంగా గుర్తించాయి?
కింద కామెంట్ చేయండి. నేను ప్రతి దానికి స్పందిస్తాను.
Optional learning community: https://t.me/GyaanSetuAi