मैं हर रात अपने एजेंट पर एक सेल्फ-इम्प्रूवमेंट लूप चलाता हूँ

📅3 hours ago⏱2 min read

मैं हर रात अपने एजेंट पर एक सेल्फ-इम्प्रूवमेंट लूप चलाता हूँ

मेरा AI एजेंट अक्सर एक ही तरह की गलतियाँ करता था। वह कोई टास्क चलाता, चुपचाप फेल हो जाता, और फिर रिपोर्ट करता कि सब कुछ बिल्कुल ठीक रहा। वह खराब नहीं था। बस उसके पास अपनी गलतियों से सीखने का कोई तरीका नहीं था।

इसे ठीक करने के लिए मैंने एक सेल्फ-इम्प्रूवमेंट लूप बनाया।

हर रात 2 बजे, एक आइसोलेटेड सेशन (isolated session) सक्रिय होता है। यह पिछले 24 घंटों के लॉग्स (logs) पढ़ता है। यह देखता है कि कहाँ गड़बड़ हुई और उसके पैटर्न ढूँढता है। फिर, यह एजेंट की मेमोरी फाइल्स को अपडेट करता है। इसमें किसी इंसान की ज़रूरत नहीं पड़ती।

यह इस तरह काम करता है:

एक्जीक्यूटर (executor) को क्रिटिक (critic) से अलग करें। मुख्य एजेंट टास्क चलाता है। एक अलग सेशन काम की समीक्षा करता है। एक ही सेशन जज और जल्लाद दोनों नहीं हो सकता।
साधारण फाइल्स का उपयोग करें। मैं मेमोरी और सुधारों के लिए प्लेन टेक्स्ट फाइल्स का उपयोग करता हूँ। इससे सिस्टम हल्का बना रहता है।
विशिष्टता (specificity) पर ज़ोर दें। मैं एजेंट से सुधार करने के लिए नहीं कहता। मैं उससे पैटर्न ढूँढने, सबूत देने और एक ठोस समाधान सुझाने के लिए कहता हूँ।

इसे मैनेज करने के लिए मैं तीन विशिष्ट फाइल्स का उपयोग करता हूँ:

डेली लॉग्स (Daily logs): जो कुछ भी हुआ उसका एक कच्चा रिकॉर्ड।
संचित सबक (Accumulated lessons): हाई-सिग्नल नियम जिन्हें एजेंट हर सेशन की शुरुआत में पढ़ता है।
सुधार (Corrections): हालिया सुधारों के लिए एक जगह। यदि दो हफ्तों में कोई गलती तीन बार होती है, तो उसे स्थायी सबक वाली फाइल में भेज दिया जाता है।

परिणाम तुरंत नहीं मिले। पहले तीन हफ्तों तक, ऑब्जर्वेशन (observations) बहुत ही सामान्य थे। चौथे हफ्ते तक, एजेंट ने गहरी समस्याओं को ढूँढना शुरू कर दिया। उसने टाइमिंग एरर्स और एरर मैसेज में छिपे हुए ऐसे पैटर्न ढूँढ निकाले जिन्हें मैं मिस कर गया था।

सबसे बड़ा फायदा स्थिरता (stability) है। अगर मेरे सुधार के बाद कोई समस्या दोबारा आती है, तो मुझे पता चल जाता है कि मेरा सुधार गलत था। सिस्टम ट्रैक करता है कि कोई समाधान वास्तव में काम कर रहा है या नहीं।

इस सिस्टम की सीमाएँ हैं। यह लॉग्स में विफलताओं को देख सकता है, लेकिन निर्णय लेने में होने वाली गलतियों को तब तक नहीं देख सकता जब तक मैं उन्हें फ्लैग (flag) न कर दूँ। मुझे अभी भी उसे बताना पड़ता है कि जब वह सही कारणों से गलत काम कर रहा हो।

यह सेटअप कॉन्फ़िगरेशन की केवल 50 लाइनों का उपयोग करता है और दो मिनट से भी कम समय में चलता है। यह मेरे एजेंट को हर दिन थोड़ा बेहतर बनाता है।

स्रोत: https://dev.to/mrclaw207/i-run-a-self-improvement-loop-on-my-openclaw-agent-every-night-heres-what-i-learned-38bp

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

मैं हर रात अपने एजेंट पर एक सेल्फ-इम्प्रूवमेंट लूप चलाता हूँ

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

एक ऑटोनॉमस एजेंट टीम बनाना

7 गलतियाँ जो AI एजेंट्स को खराब कर देती हैं

7 महत्वपूर्ण गलतियाँ जो AI एजेंट्स को विफल कर देती हैं

AI एजेंट्स में विश्वसनीयता की समस्या है