Agentic AI کے ROI کا خاموش قاتل
آپ کے Kubernetes pods ہرے (green) ہیں۔ آپ کی API latency کم ہے۔ آپ کا LLM فراہم کنندہ 99.9% uptime دکھا رہا ہے۔
اس کے باوجود، آپ کا خودکار قرضہ نظام (automated loan system) محض تین گھنٹوں میں اپنا پورا ماہانہ API بجٹ ختم کر چکا ہے۔ دو ایجنٹس ایک لوپ (loop) میں پھنس گئے۔
یہ "صحت مند لیکن وہم کرنے والا" (Healthy but Hallucinating) تضاد ہے۔
روایتی سافٹ ویئر میں، ایک سسٹم یا تو چل رہا ہوتا ہے یا بند۔ ایک agentic mesh میں، ایک سسٹم صحت مند نظر آ سکتا ہے لیکن مکمل طور پر ناکام ہو سکتا ہے۔ اگر آپ ایجنٹس کے لیے معیاری Site Reliability Engineering (SRE) استعمال کرتے ہیں، تو آپ غلط سگنلز کی نگرانی کر رہے ہیں۔ آپ ایک ایسے مریض کے دل کی دھڑکن ناپ رہے ہیں جو عملی طور پر دماغی طور پر مردہ (brain-dead) ہو چکا ہے۔
معیاری انفراسٹرکچر ایجنٹک تباہی (agentic collapse) کو روکنے میں کیوں ناکام رہتا ہے؟
روایتی SRE یقینی (deterministic) سسٹمز کے لیے بنایا گیا ہے۔ جب کوئی سروس ناکام ہوتی ہے، تو وہ ایک ایرر (error) دیتی ہے۔ یہ بائنری (binary) ہے۔ ایجنٹ کی ناکامیاں مختلف ہوتی ہیں۔ ایک ایجنٹ کریش نہیں ہوتا، بلکہ وہ اپنے راستے سے بھٹک جاتا ہے (drifts)۔ وہ ٹائم آؤٹ نہیں ہوتا، بلکہ وہ ایک ایسا پیرامیٹر ایجاد (hallucinate) کر لیتا ہے جو کئی مراحل بعد خاموش ناکامی (silent failure) کا باعث بنتا ہے۔
ہم یہ فرق سنگل بوٹس سے انٹرپرائز ایجنٹ فیکرکس (enterprise agent fabrics) کی طرف منتقلی کے دوران دیکھتے ہیں۔ ایک ٹیم بینچ مارک پر 95% درستگی کی رپورٹ دیتی ہے، لیکن سسٹم پروڈکشن میں ناکام ہو جاتا ہے۔ بینچ مارکس یہ ناپتے ہیں کہ آیا کوئی ماڈل سوال کا جواب دے سکتا ہے یا نہیں۔ وہ یہ نہیں ناپتے کہ آیا ایک سسٹم چار ایجنٹس پر مشتمل 12 مرحلہ وار ورک فلو میں اپنی حالت (state) برقرار رکھ سکتا ہے۔
آپ کو Agent Reliability Engineering (ARE) کی ضرورت ہے۔
روایتی SRE بائنری حالتوں کو مینیج کرتا ہے۔ ARE امکاناتی تقسیم (probability distributions) کو مینیج کرتا ہے۔ اگر آپ صرف CPU اور میموری کو ٹریک کرتے ہیں، تو آپ ایجنٹ کی ناکامیوں سے بے خبر ہیں۔
ملٹی ایجنٹ سسٹمز میں غلطیاں صرف جمع نہیں ہوتیں، بلکہ وہ ضرب ہو جاتی ہیں۔ چونکہ ایجنٹس دوسرے ایجنٹس کے آؤٹ پٹ کو حقیقت کے طور پر استعمال کرتے ہیں، اس لیے پہلے مرحلے کی ایک چھوٹی سی غلطی پانچویں مرحلے تک پہنچتے پہنچتے ایک تباہی بن جاتی ہے۔
عام ناکامی کے طریقے (failure modes) درج ذیل ہیں:
- ایجنٹک لامتناہی لوپس (Agentic infinite loops)
- اسٹیٹ ڈرِفٹ (State drift)
- پرامپٹ انجیکشن کیسکیڈز (Prompt injection cascades)
- ٹول کال ہیلو سینیشنز (Tool-call hallucinations)
ایک خطرناک مثال: ایک ایجنٹ اپ ڈیٹ ٹول کو کال کرتا ہے۔ وہ ایک ایسا پیرامیٹر ایجاد کرتا ہے جو موجود ہی نہیں ہے۔ API اضافی پیرامیٹر کو نظر انداز کر دیتی ہے اور 200 OK واپس کرتی ہے۔ ایجنٹ سمجھتا ہے کہ وہ کامیاب رہا، لیکن بزنس لاجک خاموشی سے ناکام ہو گئی۔
ARE "ارادہ-عمل-نتیجہ" (intent-action-outcome) لوپ پر توجہ مرکوز کرتا ہے۔ آپ صرف یہ مانیٹر نہیں کرتے کہ آیا ایجنٹ نے ٹول کو کال کیا، بلکہ آپ یہ مانیٹر کرتے ہیں کہ آیا وہ کال اصل ارادے کے مطابق تھی اور کیا نتیجہ مقصد تک پہنچا۔
Agent Reliability Engineer (ARE) کا کردار ان چیزوں کو سنبھالتا ہے:
- ارادے کا تجزیہ (Intent Analysis): یہ پتہ لگانا کہ ایجنٹ کب مقصد سے بھٹک جاتا ہے۔
- گارڈ ریل ٹیوننگ (Guardrail Tuning): لوپس کو روکنے کے لیے حدود (constraints) کو ایڈجسٹ کرنا۔
- قابل اعتماد نقشہ سازی (Dependability Mapping): یہ فیصلہ کرنا کہ ایجنٹ کو کب انسان کے حوالے کرنا چاہیے۔
- آڈٹ آرکیٹیکچر (Audit Architecture): اندرونی استدلال اور اسٹیٹ کی تبدیلیوں کو محفوظ کرنا۔
درستگی (accuracy) کے بارے میں بات کرنا بند کریں۔ سسٹم کی قابل اعتمادیت (System Dependability) کے بارے میں بات کرنا شروع کریں۔
آپ انسانی مداخلت کی لاگت کو ناپ کر اسے CFO کے سامنے جائز قرار دے سکتے ہیں۔ ہر بار جب کوئی انسان ایجنٹ کی غلطی کو ٹھیک کرتا ہے، تو وہ ریلائبلٹی کی ناکامی ہوتی ہے۔ ان گھنٹوں کو اپنی ماہرانہ تنخواہوں سے ضرب دیں۔ ناقابل اعتبار ہونے کی لاگت واضح ہو جائے گی۔
ایجنٹک ایرر بجٹس (Agentic Error Budgets) استعمال کریں۔ ایک سادہ ای میل خلاصہ کرنے والے (email summarizer) کے لیے، آپ کا ایرر بجٹ زیادہ ہے۔ ایک ایسے سسٹم کے لیے جو 10 ملین ڈالر منتقل کرتا ہے، آپ کا ایرر بجٹ صفر ہے۔
AI کو محض ایک سافٹ ویئر فیچر کے طور پر نہ لیں۔ اسے ایک نظامی خطرے (systemic risk) کے طور پر دیکھیں۔ اس دور کے فاتح وہ نہیں ہوں گے جن کے پاس ذہین ترین ماڈلز ہوں گے۔ بلکہ وہ ہوں گے جن کے پاس سب سے زیادہ قابل اعتماد (dependable) سسٹمز ہوں گے۔
Optional learning community: https://t.me/GyaanSetuAi
