AI एजेंट का मूल्यांकन बहुत जल्दी समाप्त हो जाता है

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorialपिछला सप्ताह2मिनट पढ़ें

AI एजेंट का मूल्यांकन बहुत जल्दी समाप्त हो जाता है

अधिकांश लोगों को लगता है कि AI एजेंट का मूल्यांकन लॉन्च के साथ ही समाप्त हो जाता है। वे बेंचमार्क पर एक उच्च स्कोर देखते हैं और मान लेते हैं कि एजेंट तैयार है। यह एक गलती है।

एक उच्च स्कोर का मतलब अक्सर केवल यह होता है कि एजेंट कुछ विशिष्ट मामलों में सफल रहा। इसका मतलब यह नहीं है कि एजेंट वास्तविक दुनिया के लिए तैयार है।

वर्तमान बेंचमार्क में भारी कमियां हैं। 15 प्रमुख बेंचमार्क की समीक्षा से पता चला:

किसी भी बेंचमार्क ने अपने स्कोर में सुरक्षा (safety) या सुरक्षा (security) को शामिल नहीं किया।
किसी भी बेंचमार्क ने लागत दक्षता (cost efficiency) को शामिल नहीं किया।
15 में से 13 केवल बाइनरी सफलता या विफलता (binary success or failure) पर निर्भर थे।
कोई भी 50% डिप्लॉयमेंट तत्परता (deployment readiness) तक नहीं पहुँचा।

केवल अंतिम आउटपुट का परीक्षण करना खतरनाक है। यदि कोई एजेंट सही उत्तर देता है, तो यह सफलता जैसा दिखता है। लेकिन जिस रास्ते का उसने अनुसरण किया, वह त्रुटिपूर्ण हो सकता है।

एक एजेंट:

सही उत्तर पाने के लिए गलत टूल्स का उपयोग कर सकता है।
सत्यापन चरणों (verification steps) को पूरी तरह से छोड़ सकता है।
तथ्यों की कल्पना (hallucinate) कर सकता है लेकिन सही निष्कर्ष पर पहुँच सकता है।
लगातार प्रयासों (retries) के साथ आपके बजट को खत्म कर सकता है।

यदि कोई कस्टमर सपोर्ट एजेंट गलत खाते के लिए रिफंड प्रोसेस करता है, तो आउटपुट ठीक लग सकता है। लेकिन एजेंट विफल रहा।

आपको केवल उत्तर का ही नहीं, बल्कि प्रक्रिया (trajectory) का भी मूल्यांकन करना चाहिए।

वास्तविक मूल्यांकन में इन आयामों को शामिल किया जाना चाहिए:

टूल और पैरामीटर की सटीकता (Tool and parameter correctness)।
ग्राउंडिंग और सटीकता (Grounding and accuracy)।
लागत और विलंबता (Cost and latency)।
नीति और सुरक्षा (Policy and safety)।
त्रुटियों से सुधार (Recovery from errors)।

मूल्यांकन को लॉन्च रिपोर्ट के रूप में देखना बंद करें। इसे एक निरंतर लूप (continuous loop) के रूप में देखें।

काम करने का बेहतर तरीका:

क्षमता के लिए सार्वजनिक बेंचमार्क बनाएं।
रिलीज़ से पहले ऑफलाइन टेस्ट चलाएं।
रीयल-टाइम में प्रोडक्शन ट्रेसेस (production traces) की निगरानी करें।
टूल कॉल, तर्क (arguments) और मध्यवर्ती निर्णयों को कैप्चर करें।
अपने ऑफलाइन डेटासेट को बेहतर बनाने के लिए विफल प्रोडक्शन ट्रेसेस का उपयोग करें।

मूल्यांकन एक ऑब्जर्वेबिलिटी (observability) की समस्या है। एक एजेंट तभी सफल होता है जब उसका व्यवहार आपके व्यावसायिक लक्ष्यों, आपके टूल्स और आपके उपयोगकर्ता के इरादे (user intent) के साथ सुसंगत रहता है। ये चीजें हर दिन बदलती हैं।

केवल ट्रेसेस को स्टोर न करें। उनका मूल्यांकन करें। मूल्यांकन के बिना ट्रेस स्टोरेज केवल एक सर्च समस्या है। प्रोडक्शन डेटा के बिना ऑफलाइन मूल्यांकन केवल एक दिखावा (theater) है।

मूल्यांकन का अंतिम चरण केवल एक स्कोर नहीं होना चाहिए। अंतिम चरण अगला ट्रेस होना चाहिए।

Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa

Optional learning community: https://t.me/GyaanSetuAi

AI एजेंट का मूल्यांकन बहुत जल्दी समाप्त हो जाता है

पढ़ना जारी रखें

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

𝗔𝗺𝗯𝗶𝗲𝗻𝘁 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗼 𝗔𝘃𝗼𝗶𝗱

7 गलतियाँ जो AI एजेंट्स को खराब कर देती हैं

7 महत्वपूर्ण गलतियाँ जो AI एजेंट्स को विफल कर देती हैं

एम्बिएंट एआई एजेंट तैनात करते समय बचने योग्य 5 महत्वपूर्ण गलतियाँ