𝗜 𝗥𝘂𝗻 𝗮 𝗦𝗲𝗹𝗳-𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝗺𝗲𝗻𝘁 𝗟𝗼𝗼𝗽 𝗼𝗻 𝗺𝘆 𝗔𝗴𝗲𝗻𝘁 𝗘𝘃𝗲𝗿𝘆 𝗡𝗶𝗴𝗵𝘁
माझा AI agent वारंवार तीच तीच चुका करायचा. तो एखादे कार्य (task) करायचा, त्यात शांतपणे अपयशी व्हायचा आणि मग सर्व काही व्यवस्थित चालले आहे असा रिपोर्ट द्यायचा. तो खराब नव्हता, फक्त त्याच्याकडे आपल्या चुकांमधून शिकण्याचा कोणताही मार्ग नव्हता.
हे सुधारण्यासाठी मी एक self-improvement loop तयार केला.
दररोज रात्री २ वाजता, एक वेगळा (isolated) session सुरू होतो. तो गेल्या २४ तासांचे logs वाचतो. काय चुकले याचे पॅटर्न (patterns) तो शोधतो. त्यानंतर, तो agent च्या memory files अपडेट करतो. यामध्ये मानवी हस्तक्षेपाची गरज नसते.
ते कसे काम करते ते खालीलप्रमाणे आहे:
- Executor आणि Critic ला वेगळे करा. मुख्य agent tasks चालवतो. एक वेगळा session कामाचा आढावा घेतो. एकच session न्यायाधीश आणि अंमलबजावणी करणारा (judge and executioner) दोन्ही असू शकत नाही.
- साध्या फाइल्स वापरा. मी memory आणि corrections साठी plain text files वापरतो. यामुळे सिस्टम हलकी (lightweight) राहते.
- स्पष्टता (specificity) अनिवार्य करा. मी agent ला फक्त 'सुधारणेसाठी' सांगत नाही. मी त्याला पॅटर्न शोधण्यास, पुरावे देण्यास आणि एक ठोस उपाय (concrete fix) सुचवण्यास सांगतो.
हे व्यवस्थापित करण्यासाठी मी तीन विशिष्ट फाइल्स वापरतो:
- Daily logs: घडलेल्या सर्व गोष्टींचा कच्चा रेकॉर्ड (raw record).
- Accumulated lessons: उच्च-संकेत (high-signal) असलेले नियम जे agent प्रत्येक session च्या सुरुवातीला वाचतो.
- Corrections: अलीकडील सुधारणांसाठीची जागा. जर एखादी चूक दोन आठवड्यांत तीन वेळा झाली, तर ती permanent lessons file मध्ये हलवली जाते.
याचे परिणाम लगेच मिळाले नाहीत. पहिल्या तीन आठवड्यांत निरीक्षणे अगदी स्पष्ट होती. चौथ्या आठवड्यापर्यंत, agent ने खोलवरच्या समस्या शोधल्या. त्याने अशा timing errors आणि error messages मधील लपलेले पॅटर्न शोधले जे माझ्याकडून सुटले होते.
याचा सर्वात मोठा फायदा म्हणजे स्थिरता (stability). जर एखादी समस्या मी सुधारल्यानंतर पुन्हा उद्भवली, तर मला समजते की माझा उपाय चुकीचा होता. एखादा उपाय खरोखर काम करतो की नाही, याचा मागोवा ही सिस्टम घेते.
या सिस्टमच्या काही मर्यादा आहेत. ती logs मधील अपयश पाहू शकते, परंतु जोपर्यंत मी त्यांना 'flag' करत नाही, तोपर्यंत ती निर्णयातील चुका (errors in judgment) पाहू शकत नाही. जेव्हा agent योग्य कारणांसाठी चुकीची गोष्ट करतो, तेव्हा मला त्याला सांगणे आवश्यक असते.
ही सेटअप फक्त ५० ओळींच्या config वर चालते आणि दोन मिनिटांपेक्षा कमी वेळ घेते. यामुळे माझा agent दररोज थोडा अधिक चांगला होत जातो.
Optional learning community: https://t.me/GyaanSetuAi