मैं हर रात अपने एजेंट पर एक सेल्फ-इम्प्रूवमेंट लूप चलाता हूँ

मेरा AI एजेंट अक्सर एक ही तरह की गलतियाँ करता था। वह कोई टास्क चलाता, चुपचाप फेल हो जाता, और फिर रिपोर्ट करता कि सब कुछ बिल्कुल ठीक रहा। वह खराब नहीं था। बस उसके पास अपनी गलतियों से सीखने का कोई तरीका नहीं था।

इसे ठीक करने के लिए मैंने एक सेल्फ-इम्प्रूवमेंट लूप बनाया।

हर रात 2 बजे, एक आइसोलेटेड सेशन (isolated session) सक्रिय होता है। यह पिछले 24 घंटों के लॉग्स (logs) पढ़ता है। यह देखता है कि कहाँ गड़बड़ हुई और उसके पैटर्न ढूँढता है। फिर, यह एजेंट की मेमोरी फाइल्स को अपडेट करता है। इसमें किसी इंसान की ज़रूरत नहीं पड़ती।

यह इस तरह काम करता है:

इसे मैनेज करने के लिए मैं तीन विशिष्ट फाइल्स का उपयोग करता हूँ:

परिणाम तुरंत नहीं मिले। पहले तीन हफ्तों तक, ऑब्जर्वेशन (observations) बहुत ही सामान्य थे। चौथे हफ्ते तक, एजेंट ने गहरी समस्याओं को ढूँढना शुरू कर दिया। उसने टाइमिंग एरर्स और एरर मैसेज में छिपे हुए ऐसे पैटर्न ढूँढ निकाले जिन्हें मैं मिस कर गया था।

सबसे बड़ा फायदा स्थिरता (stability) है। अगर मेरे सुधार के बाद कोई समस्या दोबारा आती है, तो मुझे पता चल जाता है कि मेरा सुधार गलत था। सिस्टम ट्रैक करता है कि कोई समाधान वास्तव में काम कर रहा है या नहीं।

इस सिस्टम की सीमाएँ हैं। यह लॉग्स में विफलताओं को देख सकता है, लेकिन निर्णय लेने में होने वाली गलतियों को तब तक नहीं देख सकता जब तक मैं उन्हें फ्लैग (flag) न कर दूँ। मुझे अभी भी उसे बताना पड़ता है कि जब वह सही कारणों से गलत काम कर रहा हो।

यह सेटअप कॉन्फ़िगरेशन की केवल 50 लाइनों का उपयोग करता है और दो मिनट से भी कम समय में चलता है। यह मेरे एजेंट को हर दिन थोड़ा बेहतर बनाता है।

स्रोत: https://dev.to/mrclaw207/i-run-a-self-improvement-loop-on-my-openclaw-agent-every-night-heres-what-i-learned-38bp

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi