എന്റെ ഏജന്റിൽ എല്ലാ രാത്രിയിലും ഞാൻ ഒരു സെൽഫ്-ഇംപ്രൂവ്മെന്റ് ലൂപ്പ് (Self-Improvement Loop) പ്രവർത്തിപ്പിക്കുന്നു
എന്റെ AI ഏജന്റ് ഒരേ തെറ്റുകൾ ആവർത്തിച്ചു വരുത്താറുണ്ടായിരുന്നു. അത് ഒരു ടാസ്ക് ചെയ്യുകയും, പരാജയപ്പെടുകയും, എന്നാൽ എല്ലാം കൃത്യമായി നടന്നുവെന്ന് റിപ്പോർട്ട് ചെയ്യുകയും ചെയ്യുമായിരുന്നു. അത് തകരാറിലായതുകൊണ്ടല്ല, മറിച്ച് തന്റെ തെറ്റുകളിൽ നിന്ന് പഠിക്കാനുള്ള മാർഗ്ഗമില്ലാത്തതുകൊണ്ടായിരുന്നു.
ഇത് പരിഹരിക്കാനായി ഞാൻ ഒരു സെൽഫ്-ഇംപ്രൂവ്മെന്റ് ലൂപ്പ് നിർമ്മിച്ചു.
എല്ലാ രാത്രിയിലും 2 മണിക്ക്, ഒരു ഐസൊലേറ്റഡ് സെഷൻ (isolated session) പ്രവർത്തിച്ചു തുടങ്ങുന്നു. കഴിഞ്ഞ 24 മണിക്കൂറിലെ ലോഗുകൾ അത് വായിക്കുന്നു. എവിടെയാണ് തെറ്റുകൾ സംഭവിച്ചതെന്ന് അത് കണ്ടെത്തുന്നു. തുടർന്ന്, അത് ഏജന്റിന്റെ മെമ്മറി ഫയലുകൾ അപ്ഡേറ്റ് ചെയ്യുന്നു. ഇതിൽ മനുഷ്യന്റെ ഇടപെടലുകൾ ഒന്നുമില്ല.
ഇത് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത് എന്ന് നോക്കാം:
- എക്സിക്യൂട്ടറെയും (executor) ക്രിട്ടിക്സിനെയും (critic) വേർതിരിക്കുക. പ്രധാന ഏജന്റ് ടാസ്ക്കുകൾ ചെയ്യുന്നു. മറ്റൊരു സെഷൻ ആ ജോലി പരിശോധിക്കുന്നു. ഒരേ സെഷന് തന്നെ വിധികർത്താവായും ശിക്ഷകനായും ഇരിക്കാൻ കഴിയില്ല.
- ലളിതമായ ഫയലുകൾ ഉപയോഗിക്കുക. മെമ്മറിക്കും തിരുത്തലുകൾക്കുമായി ഞാൻ പ്ലെയിൻ ടെക്സ്റ്റ് ഫയലുകളാണ് ഉപയോഗിക്കുന്നത്. ഇത് സിസ്റ്റത്തെ ഭാരം കുറഞ്ഞതാക്കി (lightweight) നിലനിർത്തുന്നു.
- കൃത്യത ഉറപ്പാക്കുക. ഏജന്റിനോട് മെച്ചപ്പെടാൻ ഞാൻ ആവശ്യപ്പെടുന്നില്ല. പകരം, പാറ്റേണുകൾ കണ്ടെത്താനും തെളിവുകൾ നൽകാനും ഒരു കൃത്യമായ പരിഹാരം നിർദ്ദേശിക്കാനും ഞാൻ ആവശ്യപ്പെടുന്നു.
ഇത് നിയന്ത്രിക്കുന്നതിനായി ഞാൻ മൂന്ന് പ്രത്യേക ഫയലുകൾ ഉപയോഗിക്കുന്നു:
- Daily logs: നടന്ന എല്ലാ കാര്യങ്ങളുടെയും ഒരു നേരിട്ടുള്ള റെക്കോർഡ്.
- Accumulated lessons: ഓരോ സെഷന്റെയും തുടക്കത്തിൽ ഏജന്റ് വായിക്കുന്ന പ്രധാനപ്പെട്ട നിയമങ്ങൾ.
- Corrections: അടുത്തകാലത്തുണ്ടായ തിരുത്തലുകൾക്കുള്ള ഇടം. രണ്ടാഴ്ചയ്ക്കുള്ളിൽ ഒരു തെറ്റ് മൂന്ന് തവണ ആവർത്തിച്ചാൽ, അത് സ്ഥിരമായ പാഠങ്ങൾ (permanent lessons) ഉള്ള ഫയലിലേക്ക് മാറ്റപ്പെടുന്നു.
ഫലങ്ങൾ പെട്ടെന്ന് ലഭിച്ചതല്ല. ആദ്യ മൂന്ന് ആഴ്ചകളിൽ നിരീക്ഷണങ്ങൾ വളരെ ലളിതമായിരുന്നു. എന്നാൽ നാലാം ആഴ്ച ആയപ്പോഴേക്കും ഏജന്റ് ആഴത്തിലുള്ള പ്രശ്നങ്ങൾ കണ്ടെത്താൻ തുടങ്ങി. ഞാൻ ശ്രദ്ധിക്കാതെ പോയ ടൈമിംഗ് പിശകുകളും എറർ മെസ്സേജുകളിലെ മറഞ്ഞിരിക്കുന്ന പാറ്റേണുകളും അത് കണ്ടെത്തി.
ഇതിന്റെ ഏറ്റവും വലിയ ഗുണം സ്ഥിരതയാണ് (stability). ഒരു പ്രശ്നം പരിഹരിച്ചതിന് ശേഷം അത് വീണ്ടും വന്നാൽ, എന്റെ പരിഹാരം തെറ്റാണെന്ന് എനിക്ക് മനസ്സിലാകും. ഒരു പരിഹാരം യഥാർത്ഥത്തിൽ ഫലപ്രദമാണോ എന്ന് സിസ്റ്റം നിരീക്ഷിക്കുന്നു.
ഈ സിസ്റ്റത്തിന് പരിമിതികളുണ്ട്. ലോഗുകളിലെ പരാജയങ്ങൾ കാണാൻ ഇതിന് കഴിയും, എന്നാൽ ഞാൻ പ്രത്യേകം സൂചിപ്പിച്ചില്ലെങ്കിൽ വിധിതീർപ്പിലെ (judgment) തെറ്റുകൾ കാണാൻ ഇതിന് കഴിയില്ല. ശരിയായ കാരണങ്ങളാൽ തെറ്റായ കാര്യം ചെയ്യുമ്പോൾ ഞാൻ ഇപ്പോഴും അതിനോട് പറയേണ്ടതുണ്ട്.
ഈ സെറ്റപ്പിൽ വെറും 50 വരി കോൺഫിഗറേഷൻ (config) മാത്രമേയുള്ളൂ, കൂടാതെ ഇത് രണ്ട് മിനിറ്റിൽ താഴെ സമയം മാത്രമേ എടുക്കുന്നുള്ളൂ. ഇത് എന്റെ ഏജന്റിനെ ഓരോ ദിവസവും അല്പം കൂടി മെച്ചപ്പെടുത്തുന്നു.
Optional learning community: https://t.me/GyaanSetuAi