AI ایجنٹ کی جانچ پڑتال بہت جلد ختم ہو جاتی ہے
زیادہ تر لوگ سمجھتے ہیں کہ AI ایجنٹ کی جانچ پڑتال (evaluation) لانچ کے وقت ختم ہو جاتی ہے۔ وہ کسی بینچ مارک پر زیادہ اسکور دیکھ کر یہ فرض کر لیتے ہیں کہ ایجنٹ تیار ہے۔ یہ ایک غلطی ہے۔
زیادہ اسکور کا مطلب اکثر صرف یہ ہوتا ہے کہ ایجنٹ نے چند مخصوص کیسز پاس کر لیے ہیں۔ اس کا مطلب یہ نہیں کہ ایجنٹ حقیقی دنیا کے لیے تیار ہے۔
موجودہ بینچ مارکس میں بڑے خلا موجود ہیں۔ 15 بڑے بینچ مارکس کے جائزے سے معلوم ہوا کہ:
- صفر بینچ مارکس نے اپنے اسکورز میں حفاظت (safety) یا سیکیورٹی کو شامل کیا۔
- صفر بینچ مارکس نے لاگت کی کارکردگی (cost efficiency) کو شامل کیا۔
- 15 میں سے 13 صرف بائنری کامیابی یا ناکامی پر انحصار کرتے تھے۔
- کوئی بھی 50% ڈیپلائمنٹ کی تیاری تک نہیں پہنچ سکا۔
صرف حتمی آؤٹ پٹ کی جانچ کرنا خطرناک ہے۔ اگر کوئی ایجنٹ درست جواب دیتا ہے، تو یہ کامیابی معلوم ہوتا ہے۔ لیکن جس راستے پر وہ چلا وہ غلط ہو سکتا ہے۔
ایک ایجنٹ یہ کر سکتا ہے:
- درست جواب حاصل کرنے کے لیے غلط ٹولز کا استعمال کرنا۔
- تصدیقی مراحل (verification steps) کو مکمل طور پر چھوڑ دینا۔
- حقائق کے بارے میں غلط معلومات (hallucinate) دینا لیکن درست نتیجے پر پہنچنا۔
- مسلسل کوششوں (retries) کے ذریعے آپ کا بجٹ ختم کر دینا۔
اگر کسٹمر سپورٹ ایجنٹ غلط اکاؤنٹ کے لیے ریفنڈ پروسیس کرتا ہے، تو آؤٹ پٹ ٹھیک نظر آتا ہے۔ لیکن ایجنٹ ناکام ہو گیا۔
آپ کو صرف جواب ہی نہیں بلکہ اس کے طے کردہ طریقے یا راستے (trajectory) کو بھی اسکور کرنا چاہیے۔
حقیقی جانچ پڑتال میں ان پہلوؤں کا احاطہ ہونا چاہیے:
- ٹول اور پیرامیٹر کی درستی۔
- گراؤنڈنگ (grounding) اور درستگی۔
- لاگت اور لیٹنسی (latency)۔
- پالیسی اور حفاظت۔
- غلطیوں سے واپسی (recovery)۔
جانچ پڑتال کو لانچ رپورٹ کے طور پر لینا بند کریں۔ اسے ایک مسلسل عمل (continuous loop) کے طور پر دیکھیں۔
کام کرنے کا بہتر طریقہ:
- صلاحیتوں کے لیے عوامی بینچ مارکس بنائیں۔
- ریلیز سے پہلے آف لائن ٹیسٹ چلائیں۔
- ریئل ٹائم میں پروڈکشن ٹریسز (production traces) کی نگرانی کریں۔
- ٹول کالز، آرگومنٹ اور درمیانی فیصلوں کو محفوظ کریں۔
- اپنے آف لائن ڈیٹا سیٹس کو بہتر بنانے کے لیے ناکام پروڈکشن ٹریسز کا استعمال کریں۔
ایویلیوایشن ایک آبزرویبلٹی (observability) کا مسئلہ ہے۔ ایک ایجنٹ صرف اس صورت میں کامیاب ہوتا ہے جب اس کا رویہ آپ کے کاروباری اہداف، آپ کے ٹولز اور صارف کے ارادے کے مطابق مستقل رہے۔ یہ چیزیں ہر روز بدلتی ہیں۔
صرف ٹریسز کو محفوظ نہ کریں۔ ان کا جائزہ لیں۔ ایویلیوایشن کے بغیر ٹریس اسٹوریج محض ایک سرچ کا مسئلہ ہے۔ پروڈکشن ڈیٹا کے بغیر آف لائن ایویلیوایشن محض ایک دکھاوا ہے۔
ایویلیوایشن کا آخری مرحلہ صرف ایک اسکور نہیں ہونا چاہیے۔ آخری مرحلہ اگلا ٹریس ہونا چاہیے۔
Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa
Optional learning community: https://t.me/GyaanSetuAi
