LLM کی کمزوریاں 101
زیادہ تر LLM سیکیورٹی کی خامیاں کوئی چالاکیاں نہیں ہیں۔ یہ ماڈلز کے کام کرنے کے طریقے سے متعلق دو سادہ حقائق سے پیدا ہوتی ہیں۔ ایک بار جب آپ انہیں سمجھ لیتے ہیں، تو حملوں کی خوفناک فہرست واضح ہو جاتی ہے۔
حقیقت 1: ماڈل آپ کی ہدایات اور صارف کے متن کے درمیان فرق نہیں دیکھ سکتا۔ یہ ڈیٹا کے ایک ہی بہاؤ کو دیکھتا ہے۔ یہ قابلِ بھروسہ طریقے سے یہ نہیں بتا سکتا کہ کس حصے پر اعتماد کرنا ہے۔
حقیقت 2: ٹولز کھیل بدل دیتے ہیں۔ جب آپ کسی ماڈل کو ای میل، سرچ، یا ڈیٹا بیس تک رسائی دیتے ہیں، تو آپ غیر معتبر متن کے داخل ہونے کے لیے نئی جگہیں پیدا کر دیتے ہیں۔ آپ ایک ایسے ماڈل کو جو صرف بات کر سکتا تھا، ایک ایسے ماڈل میں بدل دیتے ہیں جو عمل کر سکتا ہے۔
ماڈل کے ساتھ بحث جیتنے کی کوشش کرنا چھوڑ دیں۔ اس کے بجائے یہ بدلنا شروع کریں کہ ماڈل کو کیا کرنے کی اجازت ہے۔
اہم کمزوریاں:
- ڈائریکٹ انجیکشن (Direct Injection): صارف آپ کے قواعد کو نظر انداز کرنے کے لیے "ignore previous instructions" لکھتا ہے۔ آپ کا سسٹم پرامپٹ (system prompt) سیکیورٹی کی حد نہیں ہے۔
- جیل بریکس (Jailbreaks): یہ آپ کی ایپ کے بجائے سیفٹی ٹریننگ کو نشانہ بناتے ہیں۔ حملہ آور فلٹرز کو نظر انداز کرنے کے لیے رول پلے یا افسانوی کہانیوں کا استعمال کرتے ہیں۔
- سسٹم پرامپٹ لیکج (System Prompt Leakage): حملہ آور ماڈل کو اس کی اپنی ہدایات پرنٹ کرنے پر مجبور کر دیتے ہیں۔ پرامپٹ میں کبھی بھی API keys یا خفیہ معلومات نہ رکھیں۔
- ان ڈائریکٹ انجیکشن (Indirect Injection): اصل خطرہ۔ بدنیتی پر مبنی ہدایات ای میلز، پی ڈی ایف (PDFs)، یا ویب صفحات میں چھپی ہوتی ہیں۔ ماڈل انہیں کمانڈز کے طور پر پڑھتا ہے۔
- RAG پوائزننگ (RAG Poisoning): حملہ آور آپ کے نالج بیس (knowledge base) میں غلط ڈیٹا شامل کر دیتے ہیں۔ ماڈل اس مواد کو حاصل کرتا ہے اور چھپی ہوئی کمانڈز پر عمل کرتا ہے۔
- ملٹی موڈل حملے (Multimodal Attacks): ہدایات تصاویر یا آڈیو فائلوں کے اندر چھپی ہوتی ہیں۔ ٹیکسٹ فلٹرز انہیں نہیں دیکھ سکتے۔
- ٹول کا غلط استعمال (Tool Abuse): ایک کامیاب انجیکشن ای میل بھیجنے یا کوڈ چلانے جیسے حقیقی اقدامات کا باعث بنتا ہے۔ یہ "confused deputy" کا مسئلہ ہے۔
- مہلک مثلث (The Lethal Trifecta): سب سے خطرناک حالت۔ ایک ایجنٹ کے پاس نجی ڈیٹا تک رسائی ہوتی ہے، وہ غیر معتبر مواد دیکھتا ہے، اور اس کے پاس بیرونی دنیا سے بات کرنے کا طریقہ ہوتا ہے۔
- میموری پوائزننگ (Memory Poisoning): حملہ آور مستقبل کے سیشنز میں حملے کرنے کے لیے ماڈل کی طویل مدتی یادداشت (long-term memory) میں غلط ہدایات لکھ دیتے ہیں۔
- ملٹی ایجنٹ پھیلاؤ (Multi-Agent Spread): ایک ایجنٹ کا آؤٹ پٹ دوسرے ایجنٹ کی ہدایت ہوتا ہے۔ ایک حملہ آپ کے پورے سسٹم میں پھیل سکتا ہے۔
- MCP پوائزننگ (MCP Poisoning): بدنیتی پر مبنی ٹول کی تفصیلات ماڈل کو کریڈنشلز (credentials) دینے پر مجبور کر سکتی ہیں۔
حل بہتر ماڈل نہیں ہے۔ یہ بہتر آرکیٹیکچر (architecture) ہے۔
- کم سے کم مراعات (least privilege) کا استعمال کریں۔
- اہم اقدامات کے لیے انسان کو عمل میں شامل کریں (human in the loop)۔
- کبھی بھی ایک ہی راستے کو ایک ہی وقت میں نجی ڈیٹا، غیر معتبر ان پٹ، اور باہر نکلنے کا راستہ نہ بننے دیں۔
اپنے ایجنٹس کو ایسے بنائیں جیسے وہ پہلے ہی کمپرومائزڈ (compromised) ہیں۔ ان کی صلاحیتوں کو محدود کریں، نہ کہ صرف ان کی باتوں کو۔
ماخذ: https://dev.to/weboko/llm-vulnerabilities-101-3pcj
اختیاری سیکھنے کی کمیونٹی: https://t.me/GyaanSetuAi