𝗜 𝗥𝘂𝗻 𝗮 𝗦𝗲𝗹𝗳 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝗺𝗲𝗻𝘁 𝗟𝗼𝗼𝗽 𝗼𝗻 𝗺𝘆 𝗔𝗴𝗲𝗻𝘁 𝗘𝘃𝗲𝗿𝘆 𝗡𝗶𝗴𝗵𝘁

📅3 hours ago⏱2 min read

എന്റെ ഏജന്റിൽ എല്ലാ രാത്രിയിലും ഞാൻ ഒരു സെൽഫ്-ഇംപ്രൂവ്‌മെന്റ് ലൂപ്പ് (Self-Improvement Loop) പ്രവർത്തിപ്പിക്കുന്നു

എന്റെ AI ഏജന്റ് ഒരേ തെറ്റുകൾ ആവർത്തിച്ചു വരുത്താറുണ്ടായിരുന്നു. അത് ഒരു ടാസ്ക് ചെയ്യുകയും, പരാജയപ്പെടുകയും, എന്നാൽ എല്ലാം കൃത്യമായി നടന്നുവെന്ന് റിപ്പോർട്ട് ചെയ്യുകയും ചെയ്യുമായിരുന്നു. അത് തകരാറിലായതുകൊണ്ടല്ല, മറിച്ച് തന്റെ തെറ്റുകളിൽ നിന്ന് പഠിക്കാനുള്ള മാർഗ്ഗമില്ലാത്തതുകൊണ്ടായിരുന്നു.

ഇത് പരിഹരിക്കാനായി ഞാൻ ഒരു സെൽഫ്-ഇംപ്രൂവ്‌മെന്റ് ലൂപ്പ് നിർമ്മിച്ചു.

എല്ലാ രാത്രിയിലും 2 മണിക്ക്, ഒരു ഐസൊലേറ്റഡ് സെഷൻ (isolated session) പ്രവർത്തിച്ചു തുടങ്ങുന്നു. കഴിഞ്ഞ 24 മണിക്കൂറിലെ ലോഗുകൾ അത് വായിക്കുന്നു. എവിടെയാണ് തെറ്റുകൾ സംഭവിച്ചതെന്ന് അത് കണ്ടെത്തുന്നു. തുടർന്ന്, അത് ഏജന്റിന്റെ മെമ്മറി ഫയലുകൾ അപ്‌ഡേറ്റ് ചെയ്യുന്നു. ഇതിൽ മനുഷ്യന്റെ ഇടപെടലുകൾ ഒന്നുമില്ല.

ഇത് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത് എന്ന് നോക്കാം:

എക്സിക്യൂട്ടറെയും (executor) ക്രിട്ടിക്സിനെയും (critic) വേർതിരിക്കുക. പ്രധാന ഏജന്റ് ടാസ്ക്കുകൾ ചെയ്യുന്നു. മറ്റൊരു സെഷൻ ആ ജോലി പരിശോധിക്കുന്നു. ഒരേ സെഷന് തന്നെ വിധികർത്താവായും ശിക്ഷകനായും ഇരിക്കാൻ കഴിയില്ല.
ലളിതമായ ഫയലുകൾ ഉപയോഗിക്കുക. മെമ്മറിക്കും തിരുത്തലുകൾക്കുമായി ഞാൻ പ്ലെയിൻ ടെക്സ്റ്റ് ഫയലുകളാണ് ഉപയോഗിക്കുന്നത്. ഇത് സിസ്റ്റത്തെ ഭാരം കുറഞ്ഞതാക്കി (lightweight) നിലനിർത്തുന്നു.
കൃത്യത ഉറപ്പാക്കുക. ഏജന്റിനോട് മെച്ചപ്പെടാൻ ഞാൻ ആവശ്യപ്പെടുന്നില്ല. പകരം, പാറ്റേണുകൾ കണ്ടെത്താനും തെളിവുകൾ നൽകാനും ഒരു കൃത്യമായ പരിഹാരം നിർദ്ദേശിക്കാനും ഞാൻ ആവശ്യപ്പെടുന്നു.

ഇത് നിയന്ത്രിക്കുന്നതിനായി ഞാൻ മൂന്ന് പ്രത്യേക ഫയലുകൾ ഉപയോഗിക്കുന്നു:

Daily logs: നടന്ന എല്ലാ കാര്യങ്ങളുടെയും ഒരു നേരിട്ടുള്ള റെക്കോർഡ്.
Accumulated lessons: ഓരോ സെഷന്റെയും തുടക്കത്തിൽ ഏജന്റ് വായിക്കുന്ന പ്രധാനപ്പെട്ട നിയമങ്ങൾ.
Corrections: അടുത്തകാലത്തുണ്ടായ തിരുത്തലുകൾക്കുള്ള ഇടം. രണ്ടാഴ്ചയ്ക്കുള്ളിൽ ഒരു തെറ്റ് മൂന്ന് തവണ ആവർത്തിച്ചാൽ, അത് സ്ഥിരമായ പാഠങ്ങൾ (permanent lessons) ഉള്ള ഫയലിലേക്ക് മാറ്റപ്പെടുന്നു.

ഫലങ്ങൾ പെട്ടെന്ന് ലഭിച്ചതല്ല. ആദ്യ മൂന്ന് ആഴ്ചകളിൽ നിരീക്ഷണങ്ങൾ വളരെ ലളിതമായിരുന്നു. എന്നാൽ നാലാം ആഴ്ച ആയപ്പോഴേക്കും ഏജന്റ് ആഴത്തിലുള്ള പ്രശ്നങ്ങൾ കണ്ടെത്താൻ തുടങ്ങി. ഞാൻ ശ്രദ്ധിക്കാതെ പോയ ടൈമിംഗ് പിശകുകളും എറർ മെസ്സേജുകളിലെ മറഞ്ഞിരിക്കുന്ന പാറ്റേണുകളും അത് കണ്ടെത്തി.

ഇതിന്റെ ഏറ്റവും വലിയ ഗുണം സ്ഥിരതയാണ് (stability). ഒരു പ്രശ്നം പരിഹരിച്ചതിന് ശേഷം അത് വീണ്ടും വന്നാൽ, എന്റെ പരിഹാരം തെറ്റാണെന്ന് എനിക്ക് മനസ്സിലാകും. ഒരു പരിഹാരം യഥാർത്ഥത്തിൽ ഫലപ്രദമാണോ എന്ന് സിസ്റ്റം നിരീക്ഷിക്കുന്നു.

ഈ സിസ്റ്റത്തിന് പരിമിതികളുണ്ട്. ലോഗുകളിലെ പരാജയങ്ങൾ കാണാൻ ഇതിന് കഴിയും, എന്നാൽ ഞാൻ പ്രത്യേകം സൂചിപ്പിച്ചില്ലെങ്കിൽ വിധിതീർപ്പിലെ (judgment) തെറ്റുകൾ കാണാൻ ഇതിന് കഴിയില്ല. ശരിയായ കാരണങ്ങളാൽ തെറ്റായ കാര്യം ചെയ്യുമ്പോൾ ഞാൻ ഇപ്പോഴും അതിനോട് പറയേണ്ടതുണ്ട്.

ഈ സെറ്റപ്പിൽ വെറും 50 വരി കോൺഫിഗറേഷൻ (config) മാത്രമേയുള്ളൂ, കൂടാതെ ഇത് രണ്ട് മിനിറ്റിൽ താഴെ സമയം മാത്രമേ എടുക്കുന്നുള്ളൂ. ഇത് എന്റെ ഏജന്റിനെ ഓരോ ദിവസവും അല്പം കൂടി മെച്ചപ്പെടുത്തുന്നു.

Source: https://dev.to/mrclaw207/i-run-a-self-improvement-loop-on-my-openclaw-agent-every-night-heres-what-i-learned-38bp

Optional learning community: https://t.me/GyaanSetuAi

𝗜 𝗥𝘂𝗻 𝗮 𝗦𝗲𝗹𝗳 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝗺𝗲𝗻𝘁 𝗟𝗼𝗼𝗽 𝗼𝗻 𝗺𝘆 𝗔𝗴𝗲𝗻𝘁 𝗘𝘃𝗲𝗿𝘆 𝗡𝗶𝗴𝗵𝘁

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗔𝘂𝘁𝗼𝗻𝗼𝗺𝗼𝘂𝘀 𝗔𝗴𝗲𝗻𝘁 𝗧𝗲𝗮𝗺

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺