एजेंटिक AI सिस्टम्सची चाचणी (Testing Agentic AI Systems)

AI एजंट तयार करणे सोपे आहे. पण तो अनियंत्रित (rogue) होणार नाही याची खात्री करणे कठीण आहे. प्रोटोटाइपपासून प्रोडक्शनपर्यंत जाण्यासाठी तुम्हाला एका कडक टेस्टिंग फ्रेमवर्कची गरज आहे.

तुमच्या एजंटला सुरक्षित करण्यासाठी या आठ टप्प्यांचे अनुसरण करा:

टप्पा १: घटक चाचण्या (Component tests) प्रत्येक लेयरसाठी युनिट टेस्ट्स लिहा. तुमच्या रिसर्च एजंटची, सर्च टूल्सची आणि मेमरीची चाचणी घ्या. तुमच्या तज्ञांनी मंजूर केलेला मॉक डेटा वापरा. Shopify किंवा Meta सारख्या तुमच्या बाह्य API ला स्टब (stub) करा. जर एखादा API डाउन असेल, तर तुमची टेस्ट केवळ त्यामुळे फेल होऊ नये.

टप्पा २: प्रॉम्प्ट रिपॉझिटरी (The prompt repository) अचूक प्रॉम्प्ट्सची एक लायब्ररी तयार करा. त्यांना व्यवसायाच्या क्षेत्रांनुसार टॅग करा. प्रॉम्प्ट इंजेक्शन आणि रिकाम्या टूल रिस्पॉन्स यांसारख्या अपयशी प्रकरणांचा (failure cases) समावेश करा. मेमरी व्यवस्थित काम करते की नाही हे तपासण्यासाठी मल्टी-टर्न संभाषणांची चाचणी घ्या. युजरचा डेटा वेगवेगळ्या सेशन्समध्ये लीक होत नाही ना, याची खात्री करा.

टप्पा ३: कव्हरेज आणि ट्रॅजेक्टरी (Coverage and trajectory) प्रत्येक टूल खरोखर कार्यान्वित (fire) होते का ते तपासा. त्यानंतर, एजंटने घेतलेला मार्ग तपासा. केवळ टूल कार्यान्वित करणे पुरेसे नाही. एजंटने योग्य क्रमाने, योग्य आर्ग्युमेंट्ससह योग्य टूल वापरले पाहिजे.

टप्पा ४: व्हर्जन केलेले रन (Versioned runs) प्रत्येक रनला व्हर्जन नंबर द्या. प्रत्येक रिस्पॉन्स स्टोअर करा. मॉडेलमधील रँडमनेस (randomness) लक्षात घेऊन प्रत्येक प्रॉम्प्ट अनेक वेळा चालवून पहा. तुमचा पास रेट, खर्च, टोकन्स आणि लॅटन्सीचा मागोवा घ्या. अचूकता (Accuracy) हा वेग आणि किमतीच्या विरुद्ध असलेला एक व्यावसायिक तडजोड (trade-off) आहे.

टप्पा ५: ग्राउंड ट्रुथ स्टोअर (Ground truth store) प्रत्येक प्रॉम्प्टसाठी पडताळलेले (verified) उत्तरे ठेवा. हे उत्तरं कोण बदलू शकते हे ठरवा. जर तुमचे उत्पादन बदलले आणि तुम्ही तुमचे ग्राउंड ट्रुथ अपडेट केले नाहीत, तर तुमच्या चाचण्या योग्यरित्या फेल होतील.

टप्पा ६: इव्हॅल्युएटर (The evaluator) तुमच्या ग्राउंड ट्रुथच्या आधारे रनचे स्कोअरिंग करा. अचूकता आणि नेमकेपणा तपासण्यासाठी LLM जजचा वापर करा. जजच्या पूर्वग्रहाकडे (bias) लक्ष द्या. अचूकता सुनिश्चित करण्यासाठी LLM स्कोअरची मानवी लेबल्सशी तुलना करा.

टप्पा ७: मानवी पुनरावलोकन (Human review) कमी स्कोअर असलेल्या प्रकरणांसाठी एक डॅशबोर्ड तयार करा. मानवांना चुका सुधारू द्या. तुमच्या LLM जजला प्रशिक्षित करण्यासाठी या मानवी सुधारणांचा वापर करा.

टप्पा ८: CI/CD इंटिग्रेशन (CI/CD integration) प्रत्येक पुल रिक्वेस्टवर घटक चाचण्या (component tests) चालवा. दर रात्री संपूर्ण सुईट (full suite) चालवा. स्कोअर कमी झाल्यास डिप्लॉयमेंट रोखण्यासाठी एक थ्रेशोल्ड (threshold) सेट करा.

Source: https://dev.to/manikandan_pandurangan_16/dont-let-your-jarvis-become-ultron-a-field-guide-to-testing-agentic-ai-system-5c7m

Optional learning community: https://t.me/GyaanSetuAi