𝗜 𝗥𝘂𝗻 𝗮 𝗦𝗲𝗹𝗳 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝗺𝗲𝗻𝘁 𝗟𝗼𝗼𝗽 𝗼𝗻 𝗺𝘆 𝗔𝗴𝗲𝗻𝘁 𝗘𝘃𝗲𝗿𝘆 𝗡𝗶𝗴𝗵𝘁

📅3 hours ago⏱2 min read

میں ہر رات اپنے ایجنٹ پر خود کو بہتر بنانے کا ایک لوپ (Self-Improvement Loop) چلاتا ہوں

میرا AI ایجنٹ ایک ہی طرح کی غلطیاں کرتا تھا۔ وہ کوئی ٹاسک (task) مکمل کرتا، خاموشی سے ناکام ہو جاتا، اور پھر رپورٹ کرتا کہ سب کچھ بالکل ٹھیک رہا۔ وہ خراب نہیں تھا، بس اس کے پاس اپنی غلطیوں سے سیکھنے کا کوئی طریقہ نہیں تھا۔

میں نے اس مسئلے کو حل کرنے کے لیے ایک خود کو بہتر بنانے والا لوپ بنایا ہے۔

ہر رات 2 بجے، ایک الگ سیشن (isolated session) فعال ہوتا ہے۔ یہ گزشتہ 24 گھنٹوں کے لاگز (logs) پڑھتا ہے۔ یہ اس بات کے پیٹرنز (patterns) تلاش کرتا ہے کہ کہاں غلطی ہوئی۔ پھر، یہ ایجنٹ کی میموری فائلوں کو اپ ڈیٹ کرتا ہے۔ اس میں کسی انسان کی ضرورت نہیں ہوتی۔

یہ کیسے کام کرتا ہے:

ایگزیکیوٹر (executor) کو کریٹک (critic) سے الگ کریں۔ مین ایجنٹ ٹاسک انجام دیتا ہے۔ ایک الگ سیشن کام کا جائزہ لیتا ہے۔ ایک ہی سیشن جج اور جلاد دونوں نہیں ہو سکتا۔
سادہ فائلیں استعمال کریں۔ میں میموری اور اصلاحات کے لیے سادہ ٹیکسٹ فائلیں استعمال کرتا ہوں۔ اس سے سسٹم ہلکا پھلکا رہتا ہے۔
وضاحت پر زور دیں۔ میں ایجنٹ سے صرف بہتر ہونے کے لیے نہیں کہتا۔ میں اس سے پیٹرنز تلاش کرنے، ثبوت فراہم کرنے اور ایک ٹھوس حل تجویز کرنے کا کہتا ہوں۔

میں اس کے انتظام کے لیے تین مخصوص فائلیں استعمال کرتا ہوں:

Daily logs: جو کچھ بھی ہوا اس کا ایک خام ریکارڈ۔
Accumulated lessons: اہم اصول جو ایجنٹ ہر سیشن کے آغاز میں پڑھتا ہے۔
Corrections: حالیہ اصلاحات کے لیے ایک جگہ۔ اگر دو ہفتوں میں کوئی غلطی تین بار ہوتی ہے، تو اسے مستقل اسباق والی فائل میں منتقل کر دیا جاتا ہے۔

نتائج فوری نہیں تھے۔ پہلے تین ہفتوں تک مشاہدات بالکل واضح تھے۔ چوتھے ہفتے تک، ایجنٹ نے گہرے مسائل تلاش کر لیے۔ اس نے ٹائمنگ کی غلطیاں اور ایرر میسجز میں ایسے پوشیدہ پیٹرنز تلاش کیے جو مجھ سے رہ گئے تھے۔

سب سے بڑا فائدہ استحکام (stability) ہے۔ اگر میرے ٹھیک کرنے کے بعد کوئی مسئلہ دوبارہ آتا ہے، تو مجھے معلوم ہو جاتا ہے کہ میرا حل غلط تھا۔ سسٹم اس بات پر نظر رکھتا ہے کہ آیا کوئی حل واقعی کام کرتا ہے یا نہیں۔

اس سسٹم کی حدود ہیں۔ یہ لاگز میں ناکامیاں تو دیکھ سکتا ہے، لیکن فیصلے میں غلطیوں کو نہیں دیکھ سکتا جب تک کہ میں ان کی نشاندہی نہ کروں۔ مجھے اب بھی اسے بتانا پڑتا ہے کہ جب وہ صحیح وجوہات کی بنا پر غلط کام کر رہا ہو۔

یہ سیٹ اپ صرف 50 لائنوں کی کنفیگ (config) استعمال کرتا ہے اور دو منٹ سے بھی کم وقت میں چلتا ہے۔ یہ میرے ایجنٹ کو ہر گزرتے دن کے ساتھ تھوڑا بہتر بناتا ہے۔

Source: https://dev.to/mrclaw207/i-run-a-self-improvement-loop-on-my-openclaw-agent-every-night-heres-what-i-learned-38bp

Optional learning community: https://t.me/GyaanSetuAi

𝗜 𝗥𝘂𝗻 𝗮 𝗦𝗲𝗹𝗳 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝗺𝗲𝗻𝘁 𝗟𝗼𝗼𝗽 𝗼𝗻 𝗺𝘆 𝗔𝗴𝗲𝗻𝘁 𝗘𝘃𝗲𝗿𝘆 𝗡𝗶𝗴𝗵𝘁

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

ایک خود مختار ایجنٹ ٹیم بنانا

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺