𝗜 𝗥𝘂𝗻 𝗮 𝗦𝗲𝗹𝗳 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝗺𝗲𝗻𝘁 𝗟𝗼𝗼𝗽 𝗼𝗻 𝗺𝘆 𝗔𝗴𝗲𝗻𝘁 𝗘𝘃𝗲𝗿𝘆 𝗡𝗶𝗴𝗵𝘁

📅3 hours ago⏱2 min read

ਮੈਂ ਹਰ ਰਾਤ ਆਪਣੇ Agent 'ਤੇ ਇੱਕ Self-Improvement Loop ਚਲਾਉਂਦਾ ਹਾਂ

ਮੇਰਾ AI agent ਉਹੀ ਗਲਤੀਆਂ ਦੁਹਰਾਉਂਦਾ ਰਹਿੰਦਾ ਸੀ। ਇਹ ਕੋਈ ਕੰਮ ਕਰਦਾ, ਚੁੱਪਚਾਪ ਅਸਫਲ ਹੋ ਜਾਂਦਾ, ਅਤੇ ਫਿਰ ਰਿਪੋਰਟ ਕਰਦਾ ਕਿ ਸਭ ਕੁਝ ਬਿਲਕੁਲ ਠੀਕ ਰਿਹਾ। ਇਹ ਖਰਾਬ ਨਹੀਂ ਸੀ। ਇਸ ਕੋਲ ਬੱਸ ਆਪਣੀਆਂ ਗਲਤੀਆਂ ਤੋਂ ਸਿੱਖਣ ਦਾ ਕੋਈ ਤਰੀਕਾ ਨਹੀਂ ਸੀ।

ਇਸ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਮੈਂ ਇੱਕ self-improvement loop ਬਣਾਇਆ।

ਹਰ ਰਾਤ 2 ਵਜੇ, ਇੱਕ ਵੱਖਰਾ (isolated) session ਜਾਗਦਾ ਹੈ। ਇਹ ਪਿਛਲੇ 24 ਘੰਟਿਆਂ ਦੇ logs ਪੜ੍ਹਦਾ ਹੈ। ਇਹ ਦੇਖਦਾ ਹੈ ਕਿ ਕਿੱਥੇ ਗਲਤੀਆਂ ਹੋਈਆਂ ਅਤੇ ਉਹਨਾਂ ਦੇ ਪੈਟਰਨ ਲੱਭਦਾ ਹੈ। ਫਿਰ, ਇਹ agent memory files ਨੂੰ ਅਪਡੇਟ ਕਰਦਾ ਹੈ। ਇਸ ਵਿੱਚ ਕਿਸੇ ਇਨਸਾਨ ਦੀ ਕੋਈ ਭੂਮਿਕਾ ਨਹੀਂ ਹੁੰਦੀ।

ਇਹ ਇਸ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਦਾ ਹੈ:

Executor ਨੂੰ critic ਤੋਂ ਵੱਖ ਕਰੋ। ਮੁੱਖ agent ਕੰਮ ਕਰਦਾ ਹੈ। ਇੱਕ ਵੱਖਰਾ session ਕੰਮ ਦੀ ਸਮੀਖਿਆ ਕਰਦਾ ਹੈ। ਇੱਕੋ session ਇੱਕੋ ਸਮੇਂ ਜੱਜ ਅਤੇ ਸਜ਼ਾ ਦੇਣ ਵਾਲਾ ਨਹੀਂ ਹੋ ਸਕਦਾ।
ਸਾਧਾਰਨ ਫਾਈਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਮੈਂ memory ਅਤੇ ਸੁਧਾਰਾਂ ਲਈ plain text files ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹਾਂ। ਇਸ ਨਾਲ ਸਿਸਟਮ ਹਲਕਾ ਰਹਿੰਦਾ ਹੈ।
ਸਪੱਸ਼ਟਤਾ 'ਤੇ ਜ਼ੋਰ ਦਿਓ। ਮੈਂ agent ਨੂੰ ਸੁਧਾਰ ਕਰਨ ਲਈ ਨਹੀਂ ਕਹਿੰਦਾ। ਮੈਂ ਉਸਨੂੰ ਪੈਟਰਨ ਲੱਭਣ, ਸਬੂਤ ਦੇਣ ਅਤੇ ਇੱਕ ਪੱਕਾ ਹੱਲ ਸੁਝਾਉਣ ਲਈ ਕਹਿੰਦਾ ਹਾਂ।

ਮੈਂ ਇਸ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਤਿੰਨ ਖਾਸ ਫਾਈਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹਾਂ:

Daily logs: ਜੋ ਕੁਝ ਵੀ ਹੋਇਆ ਉਸਦਾ ਇੱਕ ਕੱਚਾ ਰਿਕਾਰਡ।
Accumulated lessons: ਉੱਚ-ਸਿਗਨਲ ਨਿਯਮ ਜੋ agent ਹਰ session ਦੀ ਸ਼ੁਰੂਆਤ ਵਿੱਚ ਪੜ੍ਹਦਾ ਹੈ।
Corrections: ਹਾਲੀਆ ਸੁਧਾਰਾਂ ਲਈ ਇੱਕ ਜਗ੍ਹਾ। ਜੇਕਰ ਕੋਈ ਗਲਤੀ ਦੋ ਹਫ਼ਤਿਆਂ ਵਿੱਚ ਤਿੰਨ ਵਾਰ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਇਹ permanent lessons file ਵਿੱਚ ਚਲੀ ਜਾਂਦੀ ਹੈ।

ਨਤੀਜੇ ਤੁਰੰਤ ਨਹੀਂ ਮਿਲੇ। ਪਹਿਲੇ ਤਿੰਨ ਹਫ਼ਤਿਆਂ ਲਈ, ਨਿਰੀਖਣ ਬਹੁਤ ਸਪੱਸ਼ਟ ਸਨ। ਚੌਥੇ ਹਫ਼ਤੇ ਤੱਕ, agent ਨੇ ਡੂੰਘੀਆਂ ਸਮੱਸਿਆਵਾਂ ਲੱਭ ਲਈਆਂ। ਇਸ ਨੇ timing errors ਅਤੇ error messages ਵਿੱਚ ਉਹ ਲੁਕੇ ਹੋਏ ਪੈਟਰਨ ਲੱਭ ਲਏ ਜੋ ਮੇਰੇ ਤੋਂ ਰਹਿ ਗਏ ਸਨ।

ਸਭ ਤੋਂ ਵੱਡਾ ਫਾਇਦਾ ਸਥਿਰਤਾ ਹੈ। ਜੇਕਰ ਮੇਰੇ ਦੁਆਰਾ ਸੁਧਾਰ ਕਰਨ ਤੋਂ ਬਾਅਦ ਕੋਈ ਸਮੱਸਿਆ ਦੁਬਾਰਾ ਆਉਂਦੀ ਹੈ, ਤਾਂ ਮੈਨੂੰ ਪਤਾ ਲੱਗ ਜਾਂਦਾ ਹੈ ਕਿ ਮੇਰਾ ਸੁਧਾਰ ਗਲਤ ਸੀ। ਸਿਸਟਮ ਇਸ ਗੱਲ ਦੀ ਨਿਗਰਾਨੀ ਕਰਦਾ ਹੈ ਕਿ ਕੋਈ ਹੱਲ ਅਸਲ ਵਿੱਚ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ ਜਾਂ ਨਹੀਂ।

ਸਿਸਟਮ ਦੀਆਂ ਸੀਮਾਵਾਂ ਹਨ। ਇਹ logs ਵਿੱਚ ਅਸਫਲਤਾਵਾਂ ਦੇਖ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਫੈਸਲੇ ਲੈਣ ਵਿੱਚ ਗਲਤੀਆਂ ਨਹੀਂ ਦੇਖ ਸਕਦਾ ਜਦੋਂ ਤੱਕ ਮੈਂ ਉਹਨਾਂ ਨੂੰ ਫਲੈਗ ਨਾ ਕਰਾਂ। ਮੈਨੂੰ ਅਜੇ ਵੀ ਇਸਨੂੰ ਦੱਸਣਾ ਪੈਂਦਾ ਹੈ ਜਦੋਂ ਇਹ ਸਹੀ ਕਾਰਨਾਂ ਕਰਕੇ ਗਲਤ ਕੰਮ ਕਰਦਾ ਹੈ।

ਇਹ setup ਸਿਰਫ਼ 50 ਲਾਈਨਾਂ ਦੀ config ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਅਤੇ ਦੋ ਮਿੰਟਾਂ ਤੋਂ ਵੀ ਘੱਟ ਸਮੇਂ ਵਿੱਚ ਚੱਲਦਾ ਹੈ। ਇਹ ਮੇਰੇ agent ਨੂੰ ਹਰ ਰੋਜ਼ ਥੋੜ੍ਹਾ ਬਿਹਤਰ ਬਣਾਉਂਦਾ ਹੈ।

Source: https://dev.to/mrclaw207/i-run-a-self-improvement-loop-on-my-openclaw-agent-every-night-heres-what-i-learned-38bp

Optional learning community: https://t.me/GyaanSetuAi

𝗜 𝗥𝘂𝗻 𝗮 𝗦𝗲𝗹𝗳 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝗺𝗲𝗻𝘁 𝗟𝗼𝗼𝗽 𝗼𝗻 𝗺𝘆 𝗔𝗴𝗲𝗻𝘁 𝗘𝘃𝗲𝗿𝘆 𝗡𝗶𝗴𝗵𝘁

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

ਇੱਕ ਖੁਦਮੁਖਤਿਆਰ ਏਜੰਟ ਟੀਮ ਬਣਾਉਣਾ

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺