𝗠𝘆 𝗔𝗴𝗲𝗻𝘁 𝗥𝗲𝗽𝗼𝗿𝘁𝗲𝗱 𝟭𝟮. 𝗧𝗵𝗲 𝗥𝗲𝗮𝗹 𝗡𝘂𝗺𝗯𝗲𝗿 𝗪𝗮𝘀 𝟭𝟯.
میں ایک کوڈنگ ایجنٹ بنا رہا ہوں جو مقامی طور پر (locally) چلتا ہے۔ یہ منصوبہ بندی کے لیے Claude اور کوڈ جنریشن کے لیے مقامی ماڈلز کا استعمال کرتا ہے۔ حال ہی میں، میں نے ایجنٹ کو ایک سادہ کام سونپا: مخصوص لاگز (logs) کی گنتی کرنا۔
ایجنٹ نے 12 رپورٹ کیے۔ میں دستی حساب کتاب (manual bookkeeping) سے تھک چکا تھا، اس لیے میں نے تقریباً اسے تسلیم ہی کر لیا تھا۔ پھر میں نے اپنے ٹرمینل میں دستی طور پر چیک کیا۔ اصل گنتی 13 تھی۔
ایجنٹ نے ایک اندراج (entry) چھوڑ دیا کیونکہ اس کی شکل غیر معمولی تھی۔ ایجنٹ ہالوسینیٹ (hallucinating) نہیں کر رہا تھا۔ یہ صرف "تقریباً درست" تھا۔ یہ سب سے خطرناک قسم کی غلطی ہے۔ یہ بھروسہ کرنے کے لیے کافی معقول نظر آتی ہے۔
اس سے بھی بدتر یہ کہ، حتمی خلاصہ (summary metric) درست لگ رہا تھا۔ راؤنڈنگ اور گروپنگ کے مراحل نے غلطی کو چھپا دیا۔ اگر میں نے صرف حتمی رپورٹ دیکھی ہوتی، تو مجھے کوئی غلطی نظر نہ آتی۔ لیکن خام ڈیٹا (raw data) غلط تھا۔ ایک بار جب آپ کی خام پیمائش غلط ہو جائے، تو ہر مستقبل کی رپورٹ اس غلطی کو وراثت میں لے لیتی ہے۔
میں نے بھروسے اور پیمائش کے بارے میں ایک سخت سبق سیکھا۔
اگر آپ اس سسٹم کو کام کرنے دیتے ہیں جو خود کام کا فیصلہ بھی کرے، تو آپ کے پاس ایک مسئلہ ہے۔ آپ نے امتحان دینے والے کو ہی ممتحن (examiner) بنا دیا ہے۔ ایک امکانی ماڈل (probabilistic model) کو کبھی بھی سچائی کا آپ کا واحد ذریعہ نہیں ہونا چاہیے۔
اب میں دو نئے اصولوں پر عمل کر رہا ہوں:
ایک انسان کو پہلے خود خودکاری (automation) کا مشاہدہ کرنا چاہیے۔ اس سے پہلے کہ میں خودکار پیمائش کرنے والے سسٹم پر بھروسہ کروں، میں خود ایک یقینی (deterministic) گنتی کرتا ہوں۔ میں ٹرمینل میں نمبروں کو نکلتے ہوئے دیکھتا ہوں۔ میں اس اصول میں رعایت صرف تب کرتا ہوں جب کئی بار چلانے کے بعد مشین اور انسان کے نتائج مکمل طور پر مطابقت رکھتے ہوں۔
پیمائش کو قابل مشاہدہ اکائیوں (observable units) سے جوڑیں۔ میں اس بات کو یقینی بناتا ہوں کہ ایجنٹ بالکل وہی گنے جو ایک انسان دیکھ سکتا ہے۔ اگر آبادی (population) غیر واضح ہے، تو نمبروں میں فرق آتا رہے گا۔ اگر آبادی واضح اور محدود ہے، تو ہم اصل میں نتائج کا موازنہ کر سکتے ہیں۔
یہ طریقہ کار سست ہے۔ یہ ہمیشہ کے لیے وسعت (scale) نہیں پاتا۔ لیکن بھروسے کی بنیاد اسی طرح بنائی جاتی ہے۔
آپ AI کو کوڈ لکھنے دے سکتے ہیں۔ آپ AI کو تجزیہ کرنے دے سکتے ہیں۔ لیکن ان نمبروں کے لیے جو اہمیت رکھتے ہیں، ایک یقینی (deterministic) عمل کو حتمی گواہ ہونا چاہیے۔
آپ حد کیسے مقرر کرتے ہیں؟ آپ کب فیصلہ کرتے ہیں کہ کوئی نمبر ہاتھ سے چیک کرنے کے لیے کافی اہم ہے؟
ماخذ: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864
اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi
