آپ کا CI پاس ہو گیا۔ آپ کا ایجنٹ آپریٹر کے لیے تیار نہیں ہے۔

ہم نے گزشتہ سہ ماہی میں ایک انٹرپرائز کلائنٹ کو ڈاکومنٹ ایجنٹ فراہم کیا۔

ہمارے ٹیسٹ سویٹ (test suite) نے 94% پاس ریٹ دکھایا۔

پائلٹ کے تین ہفتوں کے بعد، ایجنٹ نے ان انوائسز کے لیے ریفنڈ جاری کرنا شروع کر دیے جنہیں وہ پڑھ نہیں سکتا تھا۔ اس نے یہ کام خاموشی سے کیا۔ کوئی غلطی (error) یا لاگ (log) موجود نہیں تھے۔ ایجنٹ نے صرف غلط جوابات دیے جو دیکھنے میں درست لگ رہے تھے۔

ہمارا CI تمام وقت گرین (green) رہا۔

مسئلہ ماڈل یا پرامپٹ (prompt) کا نہیں تھا۔ مسئلہ اس 6% ڈیٹا کا تھا جس کا ہم نے ٹیسٹ نہیں کیا تھا۔ وہ 6% ڈیٹا آپریٹر کی طرف سے آنے والا پہلا حقیقی ڈیٹا تھا۔

یہ کوئی 'ایج کیس' (edge case) نہیں ہے۔ یہ 'آپریٹر ریڈی' (operator-ready) ہونے کی تعریف ہے۔

پروڈکشن ریڈی (Production-ready) کا تعلق انفراسٹرکچر سے ہے۔ اس کا مطلب ہے کہ آپ کی سروس چلتی رہے اور لوڈ کو سنبھال سکے۔

آپریٹر ریڈی (Operator-ready) مختلف ہے۔ اس کا مطلب ہے کہ آپ کا ایجنٹ اس شخص کے لیے کام کرے جس نے اسے نہیں بنایا۔ یہ اس ڈیٹا پر کام کرے جسے آپ نے ڈیزائن نہیں کیا۔ یہ حقیقی نتائج والے فیصلے کرتا ہے۔

زیادہ تر ٹیسٹ پائپ لائنز اس سیٹ پر پاس ریٹ ناپتی ہیں جو آپ نے خود بنایا ہوتا ہے۔ وہ یہ نہیں ناپتیں کہ کیا ہوتا ہے جب حقیقی ڈیٹا آپ کے ٹیسٹ سیٹ سے مختلف ہو۔

97% ویلیڈیشن کامیابی والا ماڈل سننے میں اچھا لگتا ہے۔ لیکن ان 3% کو دیکھیں جو ناکام ہو جاتے ہیں۔

اگر آپ کا ایجنٹ ری ٹرائی (retry) کے دوران خالی فیلڈز کو ڈیفالٹ ویلیوز سے بھر دیتا ہے، تو آپ نے ایک خاموش غلطی پیدا کرنے والی مشین بنا لی ہے۔ اس میں اسکیما (schema) تو پاس ہو جاتا ہے، لیکن ڈیٹا غلط ہوتا ہے۔

اسے ٹھیک کرنے کے لیے، اسکیما کی درستگی (schema validity) کو مواد کے اعتماد (content confidence) سے الگ کریں۔

ہم نے ہر جواب کے ساتھ ایک کانفیڈنس اسکور (confidence score) شامل کیا۔ اب کم کانفیڈنس کی صورت میں ری ٹرائی کے بجائے انسانی نظرثانی (human review) کا عمل شروع ہو جاتا ہے۔ اس تبدیلی نے ہمارے پہلے 18 واقعات میں سے 14 کو پکڑ لیا۔

آپ کا ٹیسٹ سیٹ ان چیزوں کا احاطہ کرتا ہے جن کے بارے میں آپ نے سوچا تھا۔ آپریٹر کا ڈیٹا ان چیزوں کا احاطہ کرتا ہے جو آپ سے رہ گئیں۔

ہمارے معاملے میں، ہم نے یک صفحہ والی انوائسز کا ٹیسٹ کیا تھا۔ آپریٹر نے اسکین شدہ پی ڈی ایف (PDFs) والی کثیر صفحات کی انوائسز استعمال کیں۔ ایجنٹ نئے فارمیٹ پر ناکام ہو گیا۔

صرف پارسر (parser) کو ٹھیک نہ کریں۔ لائیو جانے سے پہلے اصل آپریٹر کے ڈیٹا کے خلاف ٹیسٹ کریں۔

کسی بھی ہینڈ آف (handoff) سے پہلے، اب ہم آپریٹر کے اپنے ڈیٹا سے 50 دستاویزات کا مطالبہ کرتے ہیں۔ ہم مصنوعی ڈیٹا (synthetic data) استعمال نہیں کرتے۔ ہم ان کا ڈیٹا استعمال کرتے ہیں۔

آپ کو ایک مکمل آڈٹ ٹریل (audit trail) کی بھی ضرورت ہے۔ صرف یہ لاگ نہ کریں کہ ماڈل نے کیا واپس کیا، بلکہ یہ بھی لاگ کریں کہ ماڈل نے کیا کرنے سے انکار کیا۔

ایک کم از کم آڈٹ ٹریل کے لیے درج ذیل ضروری ہے:

  • فیلڈ لیول کانفیڈنس اسکورز کے ساتھ آؤٹ پٹ
  • ایک فال بیک انڈیکیٹر (fallback indicator) جو دکھائے کہ آیا ایجنٹ نے ری ٹرائی کیا
  • بالکل وہی دستاویز دوبارہ چلانے کے لیے ایک ان پٹ ہیش (input hash)
  • استعمال شدہ مخصوص ماڈل اور پرامپٹ ورژن

ایجنٹ کو آپریٹر کے حوالے کرنے سے پہلے، ان پانچ چیزوں کو چیک کریں:

  • آپریٹر کے اصل ڈیٹا سے 50 سے زیادہ سیمپلز (samples) چلائیں۔
  • لاگز میں ایسے آؤٹ پٹس تلاش کریں جو اسکیما چیک میں تو پاس ہو گئے لیکن بعد میں غلطیاں (downstream errors) پیدا کیں۔
  • غلط یا خراب (malformed) ان پٹس دیں تاکہ اس بات کو یقینی بنایا جا سکے کہ ایجنٹ محفوظ طریقے سے ناکام ہوتا ہے۔
  • اس بات کو یقینی بنائیں کہ آپ 5 منٹ سے کم وقت میں بتا سکیں کہ ایک مخصوص دستاویز کے ساتھ کیا ہوا تھا۔
  • چیک کریں کہ ایجنٹ کے پاس کم سے کم ممکنہ اجازتیں (permissions) ہوں۔

ہمارا ٹیسٹ پاس ریٹ 94% تھا۔ پہلے مہینے میں ہماری غلطی کی شرح (error rate) 8% تھی۔

جب ہم نے کانفیڈنس اسکورز، حقیقی دنیا کے ٹیسٹنگ، اور بہتر لاگز شامل کیے، تو غلطی کی شرح کم ہو کر 1.4% رہ گئی۔

ٹیسٹ اسکور مسئلہ نہیں تھا۔ ٹیسٹ کا دائرہ کار (scope) مسئلہ تھا۔

ماخذ: https://dev.to/ethanwritesai/our-ci-passed-your-agent-isnt-operator-ready-2mfn

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi