AI Agent रोलबैक प्लान: यूजर्स का भरोसा टूटने से पहले गलत कार्यों को सुधारें
एक भरोसेमंद AI agent को परफेक्ट होने की ज़रूरत नहीं है। उसे यह पता होना चाहिए कि कब रुकना है, अपनी गलती कैसे समझानी है और उससे कैसे उबरना है।
यदि आपका agent गलत CRM field अपडेट कर देता है या डुप्लिकेट पेमेंट भेज देता है, तो केवल 'retry' करने से नुकसान ठीक नहीं होगा। किसी वास्तविक घटना का सामना करने से पहले आपके पास एक रोलबैक प्लान होना चाहिए।
जैसे-जैसे agents चैट से वास्तविक कार्यों की ओर बढ़ रहे हैं, वे अब 'state' को बदलते (mutate) हैं। यह रोलबैक को केवल एक बैकएंड कार्य नहीं, बल्कि एक प्रोडक्ट फीचर बनाता है।
सामान्य विफलता के तरीके (Common failure modes):
- agent गलत record ID का उपयोग करता है।
- एक retry किसी कार्य को दो बार दोहरा देता है।
- मॉडल बदलने से टूल के काम करने का तरीका बदल जाता है।
- वर्कफ़्लो पुरानी मेमोरी के साथ फिर से शुरू हो जाता है।
- एक अधूरा सीक्वेंस डेटा को असंगत (inconsistent) छोड़ देता है।
रिकवरी लेयर कैसे बनाएं:
Action Ledger का उपयोग करें केवल logs पर भरोसा न करें। एक ऐसा ledger बनाएं जो हर state change को रिकॉर्ड करे। हर tool call को निष्पादन (execution) से पहले और बाद में एक एंट्री बनानी चाहिए। रिकवरी के लिए यह आपका 'source of truth' है।
अपने कार्यों को वर्गीकृत (Classify) करें हर कार्य एक जैसा नहीं होता।
- Read-only: रोलबैक की आवश्यकता नहीं है।
- Internal updates: एक snapshot से पिछले मान (value) को बहाल करें।
- External reversible: इवेंट को डिलीट करें या स्टेटस अपडेट करें।
- External irreversible: वास्तविक 'undo' के बजाय 'compensation' का उपयोग करें। ईमेल या पेमेंट के मामले में, आप उन्हें "un-send" नहीं कर सकते। आपको सुधार (correction) या रिफंड भेजना होगा।
Idempotency लागू करें मॉडल idempotency लागू नहीं करता है। आपके tool runtime को इसे लागू करना चाहिए। Idempotency keys का उपयोग यह सुनिश्चित करने के लिए करें कि यदि कोई agent किसी कार्य को retry करता है, तो वह डुप्लिकेट side effects पैदा न करे।
Saga Pattern का उपयोग करें लंबे वर्कफ़्लो के लिए, प्रत्येक आगे बढ़ने वाले कार्य (forward action) के लिए एक क्षतिपूर्ति कार्य (compensating action) की आवश्यकता होती है।
- कार्य बनाएं? क्षतिपूर्ति उसे डिलीट या कैंसिल करना है।
- फील्ड अपडेट करें? क्षतिपूर्ति पुराने मान को बहाल करना है।
- ईमेल भेजें? क्षतिपूर्ति सुधार भेजना है।
Checkpoints लागू करें क्रैश होने के बाद मॉडल से "यह पता लगाने" के लिए कहना बंद करें कि "हम कहाँ थे"। वर्तमान state, पूरे किए गए कार्यों और लंबित कार्यों (pending tasks) को स्टोर करने के लिए checkpoints का उपयोग करें। सिस्टम को काम फिर से शुरू करने के लिए checkpoint लोड करना चाहिए।
Recovery Queue बनाएं जब वेरिफिकेशन स्टेप विफल हो जाता है, तो कार्य को रिकवरी क्यू में भेज दें। यह आपको कार्य को फिर से शुरू करने, क्षतिपूर्ति करने या बंद करने की अनुमति देता है। उच्च-जोखिम वाली त्रुटियों के लिए, हमेशा मानव अनुमोदन (human approval) मांगें।
भरोसा दृश्यमान रिकवरी (visible recovery) के माध्यम से बनता है। जब कोई agent गलती करता है, तो अस्पष्ट भाषा का उपयोग न करें। यूजर को ठीक-ठीक बताएं कि क्या बदला, ऐसा क्यों हुआ, और आपने इसे कैसे ठीक किया।
पहली घटना होने से पहले अपना रोलबैक प्लान तैयार कर लें।
Optional learning community: https://t.me/GyaanSetuAi
