कॉन्फैब्युलेशन कैस्केड (The Confabulation Cascade)

मेरा AI एजेंट एक लूप में फंस गया था।

यह एक गलत कॉलम नाम के साथ SQL क्वेरी लिखता था। डेटाबेस एक एरर देता था। एरर मैसेज में असली कॉलम की लिस्ट शामिल होती थी। एजेंट उस सुधार को पढ़ता था। फिर, वह बिल्कुल वही गलत कॉलम नाम दोबारा लिख देता था।

मैं इसे कॉन्फैब्युलेशन कैस्केड (confabulation cascade) कहता हूँ।

यह मॉडल की समस्या नहीं है। यह टूल डिज़ाइन की समस्या है।

यह लूप इस तरह काम करता है:

  • एजेंट अपनी ट्रेनिंग के आधार पर एक क्वेरी जनरेट करता है।
  • क्वेरी फेल हो जाती है।
  • एरर मैसेज सच्चाई बताता है।
  • एजेंट सच्चाई देखता है लेकिन इसके बजाय अपनी इंटरनल ट्रेनिंग पर भरोसा करता है।
  • एजेंट वही गलती दोहराता है।

एजेंट को दो संकेत मिलते हैं। एक संकेत एरर मैसेज है। दूसरा संकेत मॉडल की ट्रेनिंग है। ट्रेनिंग अक्सर अधिक मजबूत होती है। एरर मैसेज केवल एक बार आता है। ट्रेनिंग मॉडल द्वारा लिखे गए हर एक शब्द के साथ मौजूद रहती है।

मैंने प्रॉम्प्ट इंजीनियरिंग (prompt engineering) के जरिए इसे ठीक करने की कोशिश की। मैंने मॉडल को एरर्स पर ध्यान देने के लिए कहा। लेकिन यह काम नहीं आया।

असली समस्या यह है कि मेरा एजेंट केवल फेल होकर ही सीख सकता था। उसके पास काम करने से पहले टेबल स्ट्रक्चर को चेक करने का कोई तरीका नहीं था। उसे अंदाज़ा लगाना पड़ता था।

यदि आप किसी इंसान को API देते हैं, तो आप उन्हें डॉक्यूमेंटेशन भी देते हैं। आप उन्हें तब तक टूटे हुए (broken) रिक्वेस्ट भेजने के लिए मजबूर नहीं करते जब तक कि एरर मैसेज उन्हें स्कीमा (schema) न सिखा दें।

मैंने एक प्रोएक्टिव टूल (proactive tool) बनाकर इसे ठीक किया। एरर का इंतज़ार करने के बजाय, एजेंट अब पहले describe_table टूल को कॉल करता है।

नया वर्कफ़्लो:

  • एजेंट एक टेबल को क्वेरी करना चाहता है।
  • एजेंट असली कॉलम देखने के लिए describe_table को कॉल करता है।
  • एजेंट को सही नाम और टाइप मिल जाते हैं।
  • एजेंट पहली बार में ही सही क्वेरी लिख देता है।

लूप रुक गया। मॉडल अधिक स्मार्ट नहीं हुआ। एजेंट ने बस अंदाज़ा लगाना बंद कर दिया।

यदि आपके एजेंट डेटाबेस या APIs का उपयोग करते हैं, तो यह पूछें: क्या वे काम करने से पहले स्ट्रक्चर को वेरिफाई कर सकते हैं? या वे केवल फेल होकर ही सीखते हैं?

रिएक्टिव एरर हिंट्स (Reactive error hints) अच्छे हैं। लेकिन वे पर्याप्त नहीं हैं। एक एजेंट जो केवल विफलता के माध्यम से सीखता है, वह हमेशा हैलुसिनेशन (hallucination) से बस एक कदम दूर होता है।

ऐसे टूल बनाएं जो एजेंटों को गलती करने से पहले सवाल पूछने की अनुमति दें।

स्रोत: https://dev.to/niclydon/the-confabulation-cascade-when-your-agent-learns-nothing-from-its-own-mistakes-m08

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi