AI एजेंट का मूल्यांकन बहुत जल्दी समाप्त हो जाता है
अधिकांश लोगों को लगता है कि AI एजेंट का मूल्यांकन लॉन्च के साथ ही समाप्त हो जाता है। वे बेंचमार्क पर एक उच्च स्कोर देखते हैं और मान लेते हैं कि एजेंट तैयार है। यह एक गलती है।
एक उच्च स्कोर का मतलब अक्सर केवल यह होता है कि एजेंट कुछ विशिष्ट मामलों में सफल रहा। इसका मतलब यह नहीं है कि एजेंट वास्तविक दुनिया के लिए तैयार है।
वर्तमान बेंचमार्क में भारी कमियां हैं। 15 प्रमुख बेंचमार्क की समीक्षा से पता चला:
- किसी भी बेंचमार्क ने अपने स्कोर में सुरक्षा (safety) या सुरक्षा (security) को शामिल नहीं किया।
- किसी भी बेंचमार्क ने लागत दक्षता (cost efficiency) को शामिल नहीं किया।
- 15 में से 13 केवल बाइनरी सफलता या विफलता (binary success or failure) पर निर्भर थे।
- कोई भी 50% डिप्लॉयमेंट तत्परता (deployment readiness) तक नहीं पहुँचा।
केवल अंतिम आउटपुट का परीक्षण करना खतरनाक है। यदि कोई एजेंट सही उत्तर देता है, तो यह सफलता जैसा दिखता है। लेकिन जिस रास्ते का उसने अनुसरण किया, वह त्रुटिपूर्ण हो सकता है।
एक एजेंट:
- सही उत्तर पाने के लिए गलत टूल्स का उपयोग कर सकता है।
- सत्यापन चरणों (verification steps) को पूरी तरह से छोड़ सकता है।
- तथ्यों की कल्पना (hallucinate) कर सकता है लेकिन सही निष्कर्ष पर पहुँच सकता है।
- लगातार प्रयासों (retries) के साथ आपके बजट को खत्म कर सकता है।
यदि कोई कस्टमर सपोर्ट एजेंट गलत खाते के लिए रिफंड प्रोसेस करता है, तो आउटपुट ठीक लग सकता है। लेकिन एजेंट विफल रहा।
आपको केवल उत्तर का ही नहीं, बल्कि प्रक्रिया (trajectory) का भी मूल्यांकन करना चाहिए।
वास्तविक मूल्यांकन में इन आयामों को शामिल किया जाना चाहिए:
- टूल और पैरामीटर की सटीकता (Tool and parameter correctness)।
- ग्राउंडिंग और सटीकता (Grounding and accuracy)।
- लागत और विलंबता (Cost and latency)।
- नीति और सुरक्षा (Policy and safety)।
- त्रुटियों से सुधार (Recovery from errors)।
मूल्यांकन को लॉन्च रिपोर्ट के रूप में देखना बंद करें। इसे एक निरंतर लूप (continuous loop) के रूप में देखें।
काम करने का बेहतर तरीका:
- क्षमता के लिए सार्वजनिक बेंचमार्क बनाएं।
- रिलीज़ से पहले ऑफलाइन टेस्ट चलाएं।
- रीयल-टाइम में प्रोडक्शन ट्रेसेस (production traces) की निगरानी करें।
- टूल कॉल, तर्क (arguments) और मध्यवर्ती निर्णयों को कैप्चर करें।
- अपने ऑफलाइन डेटासेट को बेहतर बनाने के लिए विफल प्रोडक्शन ट्रेसेस का उपयोग करें।
मूल्यांकन एक ऑब्जर्वेबिलिटी (observability) की समस्या है। एक एजेंट तभी सफल होता है जब उसका व्यवहार आपके व्यावसायिक लक्ष्यों, आपके टूल्स और आपके उपयोगकर्ता के इरादे (user intent) के साथ सुसंगत रहता है। ये चीजें हर दिन बदलती हैं।
केवल ट्रेसेस को स्टोर न करें। उनका मूल्यांकन करें। मूल्यांकन के बिना ट्रेस स्टोरेज केवल एक सर्च समस्या है। प्रोडक्शन डेटा के बिना ऑफलाइन मूल्यांकन केवल एक दिखावा (theater) है।
मूल्यांकन का अंतिम चरण केवल एक स्कोर नहीं होना चाहिए। अंतिम चरण अगला ट्रेस होना चाहिए।
Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa
Optional learning community: https://t.me/GyaanSetuAi
