ਮੈਂ ਹਰ ਰਾਤ ਆਪਣੇ Agent 'ਤੇ ਇੱਕ Self-Improvement Loop ਚਲਾਉਂਦਾ ਹਾਂ
ਮੇਰਾ AI agent ਉਹੀ ਗਲਤੀਆਂ ਦੁਹਰਾਉਂਦਾ ਰਹਿੰਦਾ ਸੀ। ਇਹ ਕੋਈ ਕੰਮ ਕਰਦਾ, ਚੁੱਪਚਾਪ ਅਸਫਲ ਹੋ ਜਾਂਦਾ, ਅਤੇ ਫਿਰ ਰਿਪੋਰਟ ਕਰਦਾ ਕਿ ਸਭ ਕੁਝ ਬਿਲਕੁਲ ਠੀਕ ਰਿਹਾ। ਇਹ ਖਰਾਬ ਨਹੀਂ ਸੀ। ਇਸ ਕੋਲ ਬੱਸ ਆਪਣੀਆਂ ਗਲਤੀਆਂ ਤੋਂ ਸਿੱਖਣ ਦਾ ਕੋਈ ਤਰੀਕਾ ਨਹੀਂ ਸੀ।
ਇਸ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਮੈਂ ਇੱਕ self-improvement loop ਬਣਾਇਆ।
ਹਰ ਰਾਤ 2 ਵਜੇ, ਇੱਕ ਵੱਖਰਾ (isolated) session ਜਾਗਦਾ ਹੈ। ਇਹ ਪਿਛਲੇ 24 ਘੰਟਿਆਂ ਦੇ logs ਪੜ੍ਹਦਾ ਹੈ। ਇਹ ਦੇਖਦਾ ਹੈ ਕਿ ਕਿੱਥੇ ਗਲਤੀਆਂ ਹੋਈਆਂ ਅਤੇ ਉਹਨਾਂ ਦੇ ਪੈਟਰਨ ਲੱਭਦਾ ਹੈ। ਫਿਰ, ਇਹ agent memory files ਨੂੰ ਅਪਡੇਟ ਕਰਦਾ ਹੈ। ਇਸ ਵਿੱਚ ਕਿਸੇ ਇਨਸਾਨ ਦੀ ਕੋਈ ਭੂਮਿਕਾ ਨਹੀਂ ਹੁੰਦੀ।
ਇਹ ਇਸ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਦਾ ਹੈ:
- Executor ਨੂੰ critic ਤੋਂ ਵੱਖ ਕਰੋ। ਮੁੱਖ agent ਕੰਮ ਕਰਦਾ ਹੈ। ਇੱਕ ਵੱਖਰਾ session ਕੰਮ ਦੀ ਸਮੀਖਿਆ ਕਰਦਾ ਹੈ। ਇੱਕੋ session ਇੱਕੋ ਸਮੇਂ ਜੱਜ ਅਤੇ ਸਜ਼ਾ ਦੇਣ ਵਾਲਾ ਨਹੀਂ ਹੋ ਸਕਦਾ।
- ਸਾਧਾਰਨ ਫਾਈਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਮੈਂ memory ਅਤੇ ਸੁਧਾਰਾਂ ਲਈ plain text files ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹਾਂ। ਇਸ ਨਾਲ ਸਿਸਟਮ ਹਲਕਾ ਰਹਿੰਦਾ ਹੈ।
- ਸਪੱਸ਼ਟਤਾ 'ਤੇ ਜ਼ੋਰ ਦਿਓ। ਮੈਂ agent ਨੂੰ ਸੁਧਾਰ ਕਰਨ ਲਈ ਨਹੀਂ ਕਹਿੰਦਾ। ਮੈਂ ਉਸਨੂੰ ਪੈਟਰਨ ਲੱਭਣ, ਸਬੂਤ ਦੇਣ ਅਤੇ ਇੱਕ ਪੱਕਾ ਹੱਲ ਸੁਝਾਉਣ ਲਈ ਕਹਿੰਦਾ ਹਾਂ।
ਮੈਂ ਇਸ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਤਿੰਨ ਖਾਸ ਫਾਈਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹਾਂ:
- Daily logs: ਜੋ ਕੁਝ ਵੀ ਹੋਇਆ ਉਸਦਾ ਇੱਕ ਕੱਚਾ ਰਿਕਾਰਡ।
- Accumulated lessons: ਉੱਚ-ਸਿਗਨਲ ਨਿਯਮ ਜੋ agent ਹਰ session ਦੀ ਸ਼ੁਰੂਆਤ ਵਿੱਚ ਪੜ੍ਹਦਾ ਹੈ।
- Corrections: ਹਾਲੀਆ ਸੁਧਾਰਾਂ ਲਈ ਇੱਕ ਜਗ੍ਹਾ। ਜੇਕਰ ਕੋਈ ਗਲਤੀ ਦੋ ਹਫ਼ਤਿਆਂ ਵਿੱਚ ਤਿੰਨ ਵਾਰ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਇਹ permanent lessons file ਵਿੱਚ ਚਲੀ ਜਾਂਦੀ ਹੈ।
ਨਤੀਜੇ ਤੁਰੰਤ ਨਹੀਂ ਮਿਲੇ। ਪਹਿਲੇ ਤਿੰਨ ਹਫ਼ਤਿਆਂ ਲਈ, ਨਿਰੀਖਣ ਬਹੁਤ ਸਪੱਸ਼ਟ ਸਨ। ਚੌਥੇ ਹਫ਼ਤੇ ਤੱਕ, agent ਨੇ ਡੂੰਘੀਆਂ ਸਮੱਸਿਆਵਾਂ ਲੱਭ ਲਈਆਂ। ਇਸ ਨੇ timing errors ਅਤੇ error messages ਵਿੱਚ ਉਹ ਲੁਕੇ ਹੋਏ ਪੈਟਰਨ ਲੱਭ ਲਏ ਜੋ ਮੇਰੇ ਤੋਂ ਰਹਿ ਗਏ ਸਨ।
ਸਭ ਤੋਂ ਵੱਡਾ ਫਾਇਦਾ ਸਥਿਰਤਾ ਹੈ। ਜੇਕਰ ਮੇਰੇ ਦੁਆਰਾ ਸੁਧਾਰ ਕਰਨ ਤੋਂ ਬਾਅਦ ਕੋਈ ਸਮੱਸਿਆ ਦੁਬਾਰਾ ਆਉਂਦੀ ਹੈ, ਤਾਂ ਮੈਨੂੰ ਪਤਾ ਲੱਗ ਜਾਂਦਾ ਹੈ ਕਿ ਮੇਰਾ ਸੁਧਾਰ ਗਲਤ ਸੀ। ਸਿਸਟਮ ਇਸ ਗੱਲ ਦੀ ਨਿਗਰਾਨੀ ਕਰਦਾ ਹੈ ਕਿ ਕੋਈ ਹੱਲ ਅਸਲ ਵਿੱਚ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ ਜਾਂ ਨਹੀਂ।
ਸਿਸਟਮ ਦੀਆਂ ਸੀਮਾਵਾਂ ਹਨ। ਇਹ logs ਵਿੱਚ ਅਸਫਲਤਾਵਾਂ ਦੇਖ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਫੈਸਲੇ ਲੈਣ ਵਿੱਚ ਗਲਤੀਆਂ ਨਹੀਂ ਦੇਖ ਸਕਦਾ ਜਦੋਂ ਤੱਕ ਮੈਂ ਉਹਨਾਂ ਨੂੰ ਫਲੈਗ ਨਾ ਕਰਾਂ। ਮੈਨੂੰ ਅਜੇ ਵੀ ਇਸਨੂੰ ਦੱਸਣਾ ਪੈਂਦਾ ਹੈ ਜਦੋਂ ਇਹ ਸਹੀ ਕਾਰਨਾਂ ਕਰਕੇ ਗਲਤ ਕੰਮ ਕਰਦਾ ਹੈ।
ਇਹ setup ਸਿਰਫ਼ 50 ਲਾਈਨਾਂ ਦੀ config ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਅਤੇ ਦੋ ਮਿੰਟਾਂ ਤੋਂ ਵੀ ਘੱਟ ਸਮੇਂ ਵਿੱਚ ਚੱਲਦਾ ਹੈ। ਇਹ ਮੇਰੇ agent ਨੂੰ ਹਰ ਰੋਜ਼ ਥੋੜ੍ਹਾ ਬਿਹਤਰ ਬਣਾਉਂਦਾ ਹੈ।
Optional learning community: https://t.me/GyaanSetuAi