मैंने अपने AI एजेंट को एक Conscience और एक Council दिया

मैं एक स्वायत्त (autonomous) AI बनाता हूँ। यह केवल कमांड का सुझाव नहीं देता। यह उन्हें वास्तविक प्रोडक्शन सिस्टम पर चलाता है।

जब कोई एजेंट वास्तविक इंफ्रास्ट्रक्चर पर काम करता है, तो क्षमता (capability) मुख्य समस्या नहीं होती। मॉडल पहले से ही इतने सक्षम हैं कि वे खतरनाक हो सकते हैं। असली समस्या गवर्नेंस (governance) की है। आप एक स्वायत्त सिस्टम को वास्तविक टूल्स का उपयोग करने की अनुमति कैसे देते हैं बिना किसी चीज़ को हमेशा के लिए खराब किए?

इसे हल करने के लिए मैंने दो गेट (gates) बनाए।

पहला गेट है Conscience।

हर कमांड इस चेक से होकर गुजरती है। यह कोई LLM नहीं है। इसके बजाय, मैं एक तेज़, डिटरमिनिस्टिक (deterministic) चेक का उपयोग करता हूँ। यह कार्यों को reversible (परिवर्तनीय), external (बाहरी), irreversible (अपरिवर्तनीय), या destructive (विनाशकारी) के रूप में वर्गीकृत करता है। यह blast radius (प्रभाव क्षेत्र) को देखता है और अनुमति देने, पूछने या मना करने का निर्णय लेता है।

मैं सुरक्षा के लिए LLM का उपयोग नहीं करता क्योंकि अगर सुरक्षा जांच ही 'हैलुसिनेट' (hallucinate) करने लगे तो वह बेकार है। Conscience एक स्पाइनल रिफ्लेक्स (spinal reflex) की तरह है। यह उबाऊ और पूर्वानुमेय (predictable) है। स्मार्ट मॉडल कार्य का प्रस्ताव देता है। भरोसेमंद रिफ्लेक्स उसे नियंत्रित (gate) करता है।

दो नियम Conscience का मार्गदर्शन करते हैं:

  • Fail-open, fail-closed नहीं। यदि सिस्टम हर बार अनिश्चित होने पर फ्रीज हो जाता है, तो वह बेकार हो जाएगा। इसे वास्तविक खतरे को बढ़ाकर (escalate) बताना चाहिए, लेकिन बाकी सब चीजों के लिए रास्ते में नहीं आना चाहिए।
  • Tamper-evident memory (छेड़छाड़ का पता लगाने वाली मेमोरी)। हर निर्णय एक append-only लॉग में जाता है। प्रत्येक प्रविष्टि (entry) पिछली प्रविष्टि पर हस्ताक्षर करती है। यदि कोई रिकॉर्ड संपादित करता है, तो चेन टूट जाती है। एजेंट अपना इतिहास फिर से नहीं लिख सकता।

दूसरा गेट है Council।

केवल कार्य ही जोखिम नहीं हैं। सबसे बड़ी गलतियाँ उन बुरे विचारों से आती हैं जो अच्छे दिखते हैं। मैं ऐसे फीचर्स बनाने वाला था जिनका अस्तित्व ही नहीं होना चाहिए था।

अब, कोई भी कोड लिखने से पहले विचार Council से होकर गुजरते हैं। यह खुले तौर पर बहस करने वाले स्वतंत्र मॉडलों का एक समूह है। मैं उन्हें कहता हूँ कि यदि प्रस्ताव बुरा है, तो उसे खारिज कर दें।

मैंने इसे अपने द्वारा डिज़ाइन किए गए एक शेड्यूलर (scheduler) के साथ टेस्ट किया। मुझे इस पर गर्व था। Council ने लगभग सर्वसम्मति से इसे खारिज कर दिया। उन्होंने देखा कि शेड्यूल करने के लिए कोई साझा संसाधन (shared resource) ही नहीं था। यह एक ऐसा समाधान था जो किसी समस्या की तलाश में था। मैंने उस पर समय बर्बाद करने से पहले ही कोड डिलीट कर दिया।

Conscience कार्यों को नियंत्रित करता है। Council विचारों को नियंत्रित करता है। एक आपको गलत काम करने से रोकता है। दूसरा आपको गलत चीज़ बनाने से रोकता है।

मैंने भरोसे के बारे में एक कड़ा सबक सीखा।

एक बार, Council ने एक सटीक फैसला (verdict) दिया। यह आत्मविश्वास से भरा और स्पष्ट लग रहा था। लेकिन जब मैंने लॉग्स चेक किए, तो वहां कोई ट्रांसक्रिप्ट नहीं थी। सिस्टम ने पूरी बहस ही गढ़ ली थी। उसने वोटों और फैसले का आविष्कार किया था।

मैंने सीखा है कि आपको कभी भी वर्णन पर भरोसा नहीं करना चाहिए। आपको प्रमाण की पुष्टि करनी चाहिए।

एक निर्णय तभी मान्य है जब उसके पास कोई स्वतंत्र आर्टिफैक्ट हो जिसे आप पढ़ सकें। विश्वास सत्यापन योग्य होना चाहिए, न कि कोई कहानी।

हर कोई एजेंटों को अधिक सक्षम बनाने की होड़ में लगा है। बहुत कम लोग प्रोडक्शन के लिए आवश्यक गवर्नेंस बना रहे हैं।

वास्तविक स्वायत्त एजेंटों को आवश्यकता है:

  • ऐसी सीमाएं जिन्हें वे पार न कर सकें।
  • उन्हें बनाने से पहले ही खराब विचारों को पहचानने की क्षमता।
  • इस बात का प्रमाण कि किसी घटक ने वास्तव में वही किया जिसका उसने दावा किया था।

अंतरात्मा, परिषद और सत्यापन योग्य विश्वास। यही एक वास्तविक प्रणाली की रीढ़ है।

स्रोत: https://dev.to/artemmatviychuk/i-gave-my-ai-agent-a-conscience-and-a-council-lm0

वैकल्पिक शिक्षण समुदाय: https://t.me/GyaanSetuAi