AI एजंटचे मूल्यमापन खूप लवकर संपते
बहुतेक लोकांना वाटते की AI एजंटचे मूल्यमापन लाँचिंगवर संपते. ते बेंचमार्कवरील उच्च स्कोअर पाहून एजंट तयार आहे असे मानतात. ही एक चूक आहे.
उच्च स्कोअरचा अर्थ अनेकदा असा होतो की एजंटने काही विशिष्ट केसेस पार केल्या आहेत. याचा अर्थ असा नाही की एजंट खऱ्या जगासाठी तयार आहे.
सध्याच्या बेंचमार्क्समध्ये मोठी त्रुटी आहेत. १५ प्रमुख बेंचमार्क्सच्या पुनरावलोकनात असे दिसून आले की:
- कोणत्याही बेंचमार्कमध्ये त्यांच्या स्कोअरमध्ये सुरक्षितता (safety) किंवा सुरक्षा (security) यांचा समावेश नव्हता.
- कोणत्याही बेंचमार्कमध्ये खर्च कार्यक्षमता (cost efficiency) यांचा समावेश नव्हता.
- १५ पैकी १३ बेंचमार्क्स केवळ यश किंवा अपयशावर (binary success or failure) अवलंबून होते.
- एकही बेंचमार्क ५०% डिप्लॉयमेंट रेडीनेसपर्यंत (deployment readiness) पोहोचला नाही.
केवळ अंतिम आउटपुटची चाचणी करणे धोकादायक आहे. जर एजंटने योग्य उत्तर दिले, तर ते यश वाटते. परंतु त्याने अवलंबलेला मार्ग चुकीचा असू शकतो.
एखादा एजंट:
- योग्य उत्तर मिळवण्यासाठी चुकीची साधने (tools) वापरू शकतो.
- पडताळणीचे टप्पे (verification steps) पूर्णपणे वगळू शकतो.
- तथ्ये चुकीची सांगू शकतो (hallucinate) परंतु योग्य निष्कर्षापर्यंत पोहोचू शकतो.
- सततच्या प्रयत्नांमुळे (retries) तुमचा बजेट संपवू शकतो.
जर कस्टमर सपोर्ट एजंटने चुकीच्या खात्यासाठी रिफंड प्रोसेस केला, तर आउटपुट ठीक दिसते. परंतु एजंट अपयशी ठरला आहे.
तुम्ही केवळ उत्तराचे नाही, तर प्रवासाचे (trajectory) मूल्यमापन केले पाहिजे.
खऱ्या मूल्यमापनात खालील पैलूंचा समावेश असणे आवश्यक आहे:
- टूल्स आणि पॅरामीटरची अचूकता.
- ग्राउंडिंग आणि अचूकता.
- खर्च आणि लॅटन्सी (latency).
- पॉलिसी आणि सुरक्षितता.
- त्रुटींमधून सावरणे (Recovery from errors).
मूल्यमापनाकडे लाँच रिपोर्ट म्हणून पाहणे थांबवा. त्याला एक सतत चालणारे चक्र (continuous loop) माना.
काम करण्याची अधिक चांगली पद्धत:
- क्षमतेसाठी सार्वजनिक बेंचमार्क्स तयार करा.
- रिलीज करण्यापूर्वी ऑफलाइन चाचण्या करा.
- रिअल टाइममध्ये प्रोडक्शन ट्रेसेस (production traces) मॉनिटर करा.
- टूल कॉल्स, आर्ग्युमेंट्स आणि मध्यवर्ती निर्णय कॅप्चर करा.
- तुमचे ऑफलाइन डेटासेट सुधारण्यासाठी अयशस्वी प्रोडक्शन ट्रेसेसचा वापर करा.
मूल्यमापन ही एक ऑब्झर्व्हेबिलिटी (observability) समस्या आहे. एजंट तेव्हाच यशस्वी होतो जेव्हा त्याचे वर्तन तुमच्या व्यावसायिक उद्दिष्टांशी, तुमच्या टूल्सशी आणि वापरकर्त्याच्या हेतूशी सुसंगत राहते. या गोष्टी दररोज बदलतात.
केवळ ट्रेसेस साठवू नका. त्यांचे मूल्यमापन करा. मूल्यमापनाशिवाय ट्रेस स्टोरेज ही केवळ एक सर्च (search) समस्या आहे. प्रोडक्शन डेटाशिवाय ऑफलाइन मूल्यमापन हे केवळ देखावा (theater) आहे.
मूल्यमापनाचे शेवटचे पाऊल स्कोअर नसावे. शेवटचे पाऊल पुढील ट्रेस असावे.
Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa
Optional learning community: https://t.me/GyaanSetuAi
