𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀
AI گارڈ ریلز (guardrail) کے بارے میں زیادہ تر مشورے کسی سیلز پچ کی طرح لگتے ہیں۔ یہ صرف شاندار ڈائیگرامز اور چیک لسٹوں پر توجہ مرکوز کرتے ہیں۔
اصل پروڈکشن سیفٹی اتنی پرکشش نہیں ہوتی۔ یہ ان چیزوں پر انحصار کرتی ہے جو LLMs کے آنے سے بہت پہلے سے موجود تھیں۔
میں نے ایک Fortune 100 کمپنی کے لیے AI ایجنٹس بنانے میں دو سال گزارے۔ یہ ایجنٹس CI/CD کی ناکامیوں، Kubernetes کے واقعات اور انفراسٹرکچر دستاویزات کو سنبھالتے ہیں۔
انہیں محفوظ رکھنے کے لیے ہم جو تہوں والا اسٹیک (layered stack) استعمال کرتے ہیں، وہ یہ ہے:
ایجنٹ کی حدود پر شناخت (Identity at the agent boundary)۔ ہر ایجنٹ ایک ورک لوڈ آئیڈنٹی (workload identity) استعمال کرتا ہے۔ یہ کبھی بھی مشترکہ کریڈنشلز (shared credentials) استعمال نہیں کرتا۔ IAM کا اسکوپ آپ کی سیکیورٹی کی حد ہے۔ اگر ایجنٹ کو ڈیٹا بیس تک رسائی کی ضرورت نہیں ہے، تو IAM رول کے پاس یہ رسائی نہیں ہونی چاہیے۔ یہ آپ کا سب سے اہم کنٹرول ہے۔
ٹول الاؤ لسٹ (Tool allow-lists)۔ پلیٹ فارم یہ فیصلہ کرتا ہے کہ ایجنٹ کون سے ٹولز دیکھ سکتا ہے۔ کوڈ سرچ کرنے والے ایجنٹ کے پاس ای میل ٹول نہیں ہونا چاہیے۔ ہم اس کے لیے اسٹیٹک کنفیگریشنز (static configs) استعمال کرتے ہیں۔ ہم کبھی بھی ڈائنامک ٹول رجسٹریشن استعمال نہیں کرتے۔
نیٹ ورک ایگریس کنٹرولز (Network egress controls)۔ ایجنٹس صرف الاؤ لسٹ شدہ اینڈ پوائنٹس (endpoints) تک پہنچ سکتے ہیں۔ ہم DNS فلٹرنگ اور ایگریس پراکسی (egress proxy) استعمال کرتے ہیں۔ یہ ماڈل کے ہالوسینیشنز (hallucinations) کو غلط URLs پر جانے سے روکتا ہے۔
سیکرٹس کا علیحدگی (Secrets isolation)۔ ایجنٹس کبھی بھی خام سیکرٹس (raw secrets) نہیں دیکھتے۔ ہم ٹول کالز کے دوران استعمال ہونے والے مختصر مدت کے سیشن ٹوکنز (short-lived session tokens) استعمال کرتے ہیں۔ پرامپٹ (prompt) میں کبھی بھی سیکرٹس نہ ڈالیں۔ پرامپٹ میں موجود کسی بھی چیز کو لاگ کیا جا سکتا ہے یا دوبارہ چلایا (replay) جا سکتا ہے۔
مکمل آڈٹ ٹریلز (Full audit trails)۔ آپ کو ہر ماڈل کال اور ہر ٹول کال کو لاگ کرنا چاہیے۔ اس میں ان پٹس، آؤٹ پٹس، ٹول آرگیومنٹس اور صارف کی شناخت شامل ہے۔ کسی واقعے کے دوران کیا غلط ہوا، اسے سمجھنے کے لیے آپ کو اس کی ضرورت ہوتی ہے۔
انسانی منظوری (Human approval)۔ کسی بھی ایسے عمل کے لیے جو ریکارڈ کے سسٹم (system of record) کو تبدیل کرتا ہو، پلیٹ فارم کو رکنا چاہیے۔ ایک انسان کو اس عمل کی منظوری دینی چاہیے۔ یہ آپ کا حفاظتی جال (safety net) ہے۔
ان عام غلطیوں سے بچیں:
پرامپٹ لیول کی ہدایات (Prompt-level instructions)۔ ماڈل کو یہ کہنا کہ "کبھی X نہ کریں" سیکیورٹی نہیں ہے۔ ایک صارف ماڈل کو دھوکہ دے سکتا ہے۔ کنٹرول کو IAM یا ٹول لیئر پر منتقل کریں۔
عام PII فلٹرز (Generic PII filters)۔ ان میں غلطی کی شرح زیادہ ہوتی ہے۔ IAM کے ذریعے ڈیٹا تک رسائی کو محدود کرنا بہتر ہے تاکہ ایجنٹ کبھی بھی حساس معلومات نہ دیکھ سکے۔
گارڈ ریل ماڈلز (Guardrail models)۔ پہلے ماڈل کی درجہ بندی کے لیے دوسرے LLM کا استعمال لیٹنسی (latency) میں اضافہ کرتا ہے۔ یہ کوئی حقیقی سیکیورٹی کنٹرول نہیں ہے۔ یہ محض ایک ماڈل انسمبل (model ensemble) ہے۔
وہ اسباق جو میں نے مشکل تجربات سے سیکھے:
پرامپٹس سے پہلے IAM کو درست کریں۔ میں نے پرامپٹس کو بہتر بنانے میں وقت ضائع کیا جبکہ مجھے IAM رولز کو سخت کرنا چاہیے تھا۔ کنٹرولز کو اسٹیک میں جتنا ممکن ہو سکے نیچے منتقل کریں۔
اپنے آڈٹ ٹریل (audit trail) کو بھرپور بنائیں۔ صرف پرامپٹ اور جواب کو محفوظ کرنا کافی نہیں ہے۔ آپ کو درمیانی ٹول کالز (tool calls) اور آرگومنٹ (arguments) کی ضرورت ہوتی ہے۔ شروع میں لاگ (log) بنانا سستا ہے لیکن بعد میں اسے درست کرنا مہنگا پڑتا ہے۔
ایجنٹ کے رابطے کو محدود کریں۔ ملٹی ایجنٹ سسٹمز (multi-agent systems) میں، ایجنٹ سے ایجنٹ کے درمیان کالز پر ایک سخت حد (hard cap) مقرر کریں۔ یہ سلسلہ وار ناکامیوں (cascading failures) کو روکتا ہے۔
بڑے پیمانے پر AI کی حفاظت ماڈل کا مسئلہ نہیں ہے۔ یہ پلیٹ فارم کا مسئلہ ہے۔ اپنے ایجنٹس کے ساتھ وہی آپریشنل نظم و ضبط اپنائیں جو کسی بھی دوسرے پروڈکشن سسٹم کے لیے ضروری ہوتا ہے۔
اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi