𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻
तुमचा AI एजंट तुमच्या स्टेजिंग एनव्हायर्नमेंटमध्ये (staging environment) अगदी उत्तम प्रकारे काम करत होता. डेमो खूप छान दिसत होते. प्रॉडक्ट मॅनेजर देखील समाधानी होते.
मग तुम्ही ते प्रोडक्शनमध्ये (production) रिलीज केले.
तीन आठवड्यांनंतर, तुम्हाला बग रिपोर्ट्स (bug reports) मिळतात. एजंट अशी उत्तरे देतो जी ऐकायला बरोबर वाटतात पण प्रत्यक्षात ती पूर्णपणे चुकीची असतात.
मी २०२५ मध्ये हे घडताना पाहिले आहे. एका टीमने असा एजंट रिलीज केला ज्याने एंटरप्राइझ ग्राहकांसाठी उत्पादनाच्या किमतीबद्दल चुकीची माहिती (hallucinated) दिली. त्या एजंटचा कॉन्फिडन्स स्कोअर (confidence score) ०.९४ इतका उच्च होता, पण प्रत्यक्षात त्याची अचूकता (accuracy) केवळ ६०% होती.
ती टीम अपयशी ठरली कारण त्यांच्याकडे कोणतीही इव्हॅल्युएशन पाइपलाइन (evaluation pipeline) नव्हती. त्यांनी केवळ आशेवर अवलंबून राहणे पसंत केले.
आशा ही डिप्लॉयमेंट स्ट्रॅटेजी (deployment strategy) नाही.
बहुतेक टीम्स आपला सर्व वेळ एजंट आर्किटेक्चरवर (agent architecture) खर्च करतात. त्यांचे लक्ष टूल डेफिनिशन्स (tool definitions), प्रॉम्प्ट्स (prompts) आणि लॉजिकवर असते. ते फक्त रिलीज करतात आणि प्रार्थना करतात.
यामुळे 'मेझरमेंट थिएटर' (Measurement Theater) निर्माण होते. जेव्हा तुम्ही खऱ्या त्रुटी शोधण्याऐवजी एजंट चांगला दिसावा यासाठी डॅशबोर्ड आणि टेस्ट सूट्सचा वापर करता, तेव्हा त्याला 'मेझरमेंट थिएटर' म्हणतात. तुम्ही बेंचमार्कवर ९५% अचूकता साजरे करता, तर प्रत्यक्षात एजंट वापरकर्त्यांच्या ३०% प्रश्नांमध्ये अपयशी ठरतो.
तुम्हाला स्टॅटिक बेंचमार्क्सकडून (static benchmarks) SkillOps कडे वळण्याची गरज आहे. याचा अर्थ संपूर्ण एजंटऐवजी एजंटच्या विशिष्ट कौशल्यांचे (skills) मूल्यमापन करणे.
एजंट काम करतो की नाही हे विचारणे थांबवा. त्याऐवजी कोणती विशिष्ट कौशल्ये अपयशी ठरत आहेत आणि का, हे विचारण्यास सुरुवात करा.
प्रोडक्शनमधील आपत्ती टाळण्यासाठी या फ्रेमवर्कचा वापर करा:
रिलीज करण्यापूर्वी 'पुरेसे चांगले' (good enough) काय आहे ते ठरवा. प्रत्येक कौशल्यासाठी अचूकतेची मर्यादा (accuracy thresholds) निश्चित करा. सारांशासाठी (summary) ८५% अचूकता ठीक असू शकते, पण किमतीसाठी (pricing) ८५% अचूकता तुम्हाला आर्थिक नुकसान करून देऊ शकते.
वास्तविक जीवनाचे प्रतिबिंब दर्शवणारा डेटा तयार करा. तुमचे टेस्ट्स वापरकर्ते प्रत्यक्षात काय विचारतात यावर आधारित असावेत, तुम्हाला त्यांनी काय विचारावे असे वाटते यावर नाही.
पहिल्या दिवसापासून रिग्रेशन्स (regressions) ओळखा. प्रत्येक प्रॉम्प्ट बदल किंवा टूल अपडेट करण्यापूर्वी ऑटोमेटेड टेस्ट (automated test) करणे अनिवार्य असावे.
केवळ अचूकतेवर नाही, तर कॉन्फिडन्सवर (confidence) लक्ष ठेवा. चुकीची उत्तरे देणाऱ्या अति-आत्मविश्वासी एजंटपेक्षा, स्वतः कधी चुकीचे आहे हे माहित असलेला एजंट अधिक सुरक्षित असतो.
फेल्युअर बजेट (failure budgets) तयार करा. रिलीज करण्यापूर्वी प्रत्येक कौशल्यासाठी तुम्ही किती त्रुटी सहन करू शकता, हे ठरवा.
२०२६ च्या अखेरीस, एजंट इव्हॅल्युएशन (agent evaluation) हा डिप्लॉयमेंटचा एक मानक भाग असेल. जे टीम्स या फ्रेमवर्क्सचा वापर करतील ते वेगाने काम करतील. जे करणार नाहीत ते "ते स्टेजिंगमध्ये व्यवस्थित चालत होते" असेच म्हणत राहतील.
तुमच्या टीमने AI एजंट्ससाठी इव्हॅल्युएशन इन्फ्रास्ट्रक्चर (evaluation infrastructure) तयार केले आहे का? कोणत्या मेट्रिक्सनी (metrics) तुमच्या त्रुटी प्रत्यक्षात पकडल्या?
खाली कमेंट करा. मी प्रत्येकाला उत्तर देतो.
ऐच्छिक शिक्षण समुदाय: https://t.me/GyaanSetuAi