मैं हर रात अपने एजेंट पर एक सेल्फ-इम्प्रूवमेंट लूप चलाता हूँ
मेरा AI एजेंट अक्सर एक ही तरह की गलतियाँ करता था। वह कोई टास्क चलाता, चुपचाप फेल हो जाता, और फिर रिपोर्ट करता कि सब कुछ बिल्कुल ठीक रहा। वह खराब नहीं था। बस उसके पास अपनी गलतियों से सीखने का कोई तरीका नहीं था।
इसे ठीक करने के लिए मैंने एक सेल्फ-इम्प्रूवमेंट लूप बनाया।
हर रात 2 बजे, एक आइसोलेटेड सेशन (isolated session) सक्रिय होता है। यह पिछले 24 घंटों के लॉग्स (logs) पढ़ता है। यह देखता है कि कहाँ गड़बड़ हुई और उसके पैटर्न ढूँढता है। फिर, यह एजेंट की मेमोरी फाइल्स को अपडेट करता है। इसमें किसी इंसान की ज़रूरत नहीं पड़ती।
यह इस तरह काम करता है:
- एक्जीक्यूटर (executor) को क्रिटिक (critic) से अलग करें। मुख्य एजेंट टास्क चलाता है। एक अलग सेशन काम की समीक्षा करता है। एक ही सेशन जज और जल्लाद दोनों नहीं हो सकता।
- साधारण फाइल्स का उपयोग करें। मैं मेमोरी और सुधारों के लिए प्लेन टेक्स्ट फाइल्स का उपयोग करता हूँ। इससे सिस्टम हल्का बना रहता है।
- विशिष्टता (specificity) पर ज़ोर दें। मैं एजेंट से सुधार करने के लिए नहीं कहता। मैं उससे पैटर्न ढूँढने, सबूत देने और एक ठोस समाधान सुझाने के लिए कहता हूँ।
इसे मैनेज करने के लिए मैं तीन विशिष्ट फाइल्स का उपयोग करता हूँ:
- डेली लॉग्स (Daily logs): जो कुछ भी हुआ उसका एक कच्चा रिकॉर्ड।
- संचित सबक (Accumulated lessons): हाई-सिग्नल नियम जिन्हें एजेंट हर सेशन की शुरुआत में पढ़ता है।
- सुधार (Corrections): हालिया सुधारों के लिए एक जगह। यदि दो हफ्तों में कोई गलती तीन बार होती है, तो उसे स्थायी सबक वाली फाइल में भेज दिया जाता है।
परिणाम तुरंत नहीं मिले। पहले तीन हफ्तों तक, ऑब्जर्वेशन (observations) बहुत ही सामान्य थे। चौथे हफ्ते तक, एजेंट ने गहरी समस्याओं को ढूँढना शुरू कर दिया। उसने टाइमिंग एरर्स और एरर मैसेज में छिपे हुए ऐसे पैटर्न ढूँढ निकाले जिन्हें मैं मिस कर गया था।
सबसे बड़ा फायदा स्थिरता (stability) है। अगर मेरे सुधार के बाद कोई समस्या दोबारा आती है, तो मुझे पता चल जाता है कि मेरा सुधार गलत था। सिस्टम ट्रैक करता है कि कोई समाधान वास्तव में काम कर रहा है या नहीं।
इस सिस्टम की सीमाएँ हैं। यह लॉग्स में विफलताओं को देख सकता है, लेकिन निर्णय लेने में होने वाली गलतियों को तब तक नहीं देख सकता जब तक मैं उन्हें फ्लैग (flag) न कर दूँ। मुझे अभी भी उसे बताना पड़ता है कि जब वह सही कारणों से गलत काम कर रहा हो।
यह सेटअप कॉन्फ़िगरेशन की केवल 50 लाइनों का उपयोग करता है और दो मिनट से भी कम समय में चलता है। यह मेरे एजेंट को हर दिन थोड़ा बेहतर बनाता है।
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi