Agent-R: Language Model Agents ਨੂੰ ਮੁੜ-ਵਿਚਾਰ (Reflect) ਕਰਨ ਲਈ ਸਿਖਾਉਣਾ
Language model agents ਅਕਸਰ ਗਲਤੀਆਂ ਕਰਦੇ ਹਨ। ਉਹ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹਨ ਪਰ ਜਦੋਂ ਕੰਮ ਔਖੇ ਹੋ ਜਾਂਦੇ ਹਨ ਤਾਂ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।
Agent-R ਇਸ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਕਰਦਾ ਹੈ। ਇਹ agents ਨੂੰ ਮੁੜ-ਵਿਚਾਰ ਕਰਨਾ ਸਿਖਾਉਣ ਲਈ iterative self-training ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
ਇਹ ਪ੍ਰਕਿਰਿਆ ਤਿੰਨ ਪੜਾਵਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦੀ ਹੈ:
- Agent ਇੱਕ ਕੰਮ ਕਰਦਾ ਹੈ।
- Agent ਗਲਤੀਆਂ ਲੱਭਣ ਲਈ ਆਪਣੇ ਕੰਮ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ।
- Agent ਆਪਣੇ ਅਗਲੇ ਯਤਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਇਹਨਾਂ ਸੁਧਾਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
ਇਹ ਵਿਧੀ ਬਿਹਤਰ ਤਰਕ (reasoning) ਬਣਾਉਂਦੀ ਹੈ। Agent ਲਗਾਤਾਰ ਮਨੁੱਖੀ ਮਦਦ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਆਪਣੀਆਂ ਅਸਫਲਤਾਵਾਂ ਤੋਂ ਸਿੱਖਦਾ ਹੈ।
ਸਵੈ-ਸੁਧਾਰ (Self-correction) agents ਨੂੰ ਗੁੰਝਲਦਾਰ workflows ਲਈ ਵਧੇਰੇ ਭਰੋਸੇਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਸਾਨੂੰ ਅਜਿਹੇ autonomous systems ਦੇ ਨੇੜੇ ਲੈ ਜਾਂਦਾ ਹੈ ਜੋ ਆਪਣੀਆਂ ਗਲਤੀਆਂ ਨੂੰ ਖੁਦ ਸੁਧਾਰ ਸਕਦੇ ਹਨ।
Optional learning community: https://t.me/GyaanSetuAi