एजेंटिक AI सिस्टम्स का परीक्षण

एक AI एजेंट बनाना आसान है। यह सुनिश्चित करना कि वह अनियंत्रित न हो जाए, कठिन है। प्रोटोटाइप से प्रोडक्शन तक जाने के लिए आपको एक सख्त टेस्टिंग फ्रेमवर्क की आवश्यकता होती है।

अपने एजेंट को सुरक्षित करने के लिए इन आठ चरणों का पालन करें:

चरण 1: कंपोनेंट टेस्ट (Component tests) हर लेयर के लिए यूनिट टेस्ट लिखें। अपने रिसर्च एजेंट, अपने सर्च टूल्स और अपनी मेमोरी का परीक्षण करें। अपने विशेषज्ञों द्वारा अनुमोदित मॉक डेटा का उपयोग करें। Shopify या Meta जैसे अपने बाहरी APIs को स्टब (stub) करें। यदि कोई API डाउन है, तो आपका टेस्ट उसके कारण विफल नहीं होना चाहिए।

चरण 2: प्रॉम्प्ट रिपॉजिटरी (The prompt repository) सटीक प्रॉम्प्ट्स की एक लाइब्रेरी बनाएं। उन्हें बिजनेस एरिया के आधार पर टैग करें। प्रॉम्प्ट इंजेक्शन और खाली टूल रिस्पॉन्स जैसे फेलियर केस शामिल करें। यह सुनिश्चित करने के लिए कि मेमोरी काम कर रही है, मल्टी-टर्न बातचीत का परीक्षण करें। जांचें कि सत्रों (sessions) के बीच यूजर डेटा लीक न हो।

चरण 3: कवरेज और ट्रेजेक्टरी (Coverage and trajectory) जांचें कि क्या हर टूल वास्तव में सक्रिय (fire) होता है। फिर, एजेंट द्वारा लिए गए पथ (path) की जांच करें। केवल टूल चलाना ही काफी नहीं है। एजेंट को सही क्रम में, सही आर्गुमेंट्स के साथ, सही टूल का उपयोग करना चाहिए।

चरण 4: वर्जन वाले रन (Versioned runs) हर रन पर एक वर्जन नंबर लगाएं। हर रिस्पॉन्स को स्टोर करें। मॉडल की रैंडमनेस (randomness) को ध्यान में रखते हुए प्रत्येक प्रॉम्प्ट को कई बार चलाएं। अपने पास रेट, लागत, टोकन और लेटेंसी को ट्रैक करें। सटीकता (Accuracy), गति और कीमत के बीच एक बिजनेस ट्रेड-ऑफ है।

चरण 5: ग्राउंड ट्रुथ स्टोर (Ground truth store) प्रत्येक प्रॉम्प्ट के लिए सत्यापित उत्तर रखें। तय करें कि इन उत्तरों को कौन बदल सकता है। यदि उत्पाद बदलने पर आप अपने ग्राउंड ट्रुथ को अपडेट नहीं करते हैं, तो आपके टेस्ट सही ढंग से विफल हो जाएंगे।

चरण 6: इवैल्यूएटर (The evaluator) अपने ग्राउंड ट्रुथ के आधार पर रन को स्कोर दें। प्रिसिजन (precision) और शुद्धता की जांच करने के लिए LLM जज का उपयोग करें। जज के पक्षपात (bias) पर नज़र रखें। सटीकता सुनिश्चित करने के लिए LLM स्कोर की तुलना ह्यूमन लेबल्स से करें।

चरण 7: ह्यूमन रिव्यू (Human review) कम स्कोर वाले मामलों के लिए एक डैशबोर्ड बनाएं। इंसानों को गलतियों को सुधारने दें। अपने LLM जज को प्रशिक्षित करने के लिए इन ह्यूमन सुधारों का उपयोग करें।

चरण 8: CI/CD इंटीग्रेशन (CI/CD integration) हर पुल रिक्वेस्ट (pull request) पर कंपोनेंट टेस्ट चलाएं। हर रात पूरा सूट चलाएं। एक थ्रेशोल्ड (threshold) सेट करें जो स्कोर गिरने पर डिप्लॉयमेंट को रोक दे।

स्रोत: https://dev.to/manikandan_pandurangan_16/dont-let-your-jarvis-become-ultron-a-field-guide-to-testing-agentic-ai-system-5c7m

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi