𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

Translated for your language. Read the original.

AI-assisted draft.

گزشتہ پرسوں2min read

LLM کی کمزوریاں 101

زیادہ تر LLM سیکیورٹی کی خامیاں کوئی چالاکیاں نہیں ہیں۔ یہ ماڈلز کے کام کرنے کے طریقے سے متعلق دو سادہ حقائق سے پیدا ہوتی ہیں۔ ایک بار جب آپ انہیں سمجھ لیتے ہیں، تو حملوں کی خوفناک فہرست واضح ہو جاتی ہے۔

حقیقت 1: ماڈل آپ کی ہدایات اور صارف کے متن کے درمیان فرق نہیں دیکھ سکتا۔ یہ ڈیٹا کے ایک ہی بہاؤ کو دیکھتا ہے۔ یہ قابلِ بھروسہ طریقے سے یہ نہیں بتا سکتا کہ کس حصے پر اعتماد کرنا ہے۔

حقیقت 2: ٹولز کھیل بدل دیتے ہیں۔ جب آپ کسی ماڈل کو ای میل، سرچ، یا ڈیٹا بیس تک رسائی دیتے ہیں، تو آپ غیر معتبر متن کے داخل ہونے کے لیے نئی جگہیں پیدا کر دیتے ہیں۔ آپ ایک ایسے ماڈل کو جو صرف بات کر سکتا تھا، ایک ایسے ماڈل میں بدل دیتے ہیں جو عمل کر سکتا ہے۔

ماڈل کے ساتھ بحث جیتنے کی کوشش کرنا چھوڑ دیں۔ اس کے بجائے یہ بدلنا شروع کریں کہ ماڈل کو کیا کرنے کی اجازت ہے۔

اہم کمزوریاں:

ڈائریکٹ انجیکشن (Direct Injection): صارف آپ کے قواعد کو نظر انداز کرنے کے لیے "ignore previous instructions" لکھتا ہے۔ آپ کا سسٹم پرامپٹ (system prompt) سیکیورٹی کی حد نہیں ہے۔
جیل بریکس (Jailbreaks): یہ آپ کی ایپ کے بجائے سیفٹی ٹریننگ کو نشانہ بناتے ہیں۔ حملہ آور فلٹرز کو نظر انداز کرنے کے لیے رول پلے یا افسانوی کہانیوں کا استعمال کرتے ہیں۔
سسٹم پرامپٹ لیکج (System Prompt Leakage): حملہ آور ماڈل کو اس کی اپنی ہدایات پرنٹ کرنے پر مجبور کر دیتے ہیں۔ پرامپٹ میں کبھی بھی API keys یا خفیہ معلومات نہ رکھیں۔
ان ڈائریکٹ انجیکشن (Indirect Injection): اصل خطرہ۔ بدنیتی پر مبنی ہدایات ای میلز، پی ڈی ایف (PDFs)، یا ویب صفحات میں چھپی ہوتی ہیں۔ ماڈل انہیں کمانڈز کے طور پر پڑھتا ہے۔
RAG پوائزننگ (RAG Poisoning): حملہ آور آپ کے نالج بیس (knowledge base) میں غلط ڈیٹا شامل کر دیتے ہیں۔ ماڈل اس مواد کو حاصل کرتا ہے اور چھپی ہوئی کمانڈز پر عمل کرتا ہے۔
ملٹی موڈل حملے (Multimodal Attacks): ہدایات تصاویر یا آڈیو فائلوں کے اندر چھپی ہوتی ہیں۔ ٹیکسٹ فلٹرز انہیں نہیں دیکھ سکتے۔
ٹول کا غلط استعمال (Tool Abuse): ایک کامیاب انجیکشن ای میل بھیجنے یا کوڈ چلانے جیسے حقیقی اقدامات کا باعث بنتا ہے۔ یہ "confused deputy" کا مسئلہ ہے۔
مہلک مثلث (The Lethal Trifecta): سب سے خطرناک حالت۔ ایک ایجنٹ کے پاس نجی ڈیٹا تک رسائی ہوتی ہے، وہ غیر معتبر مواد دیکھتا ہے، اور اس کے پاس بیرونی دنیا سے بات کرنے کا طریقہ ہوتا ہے۔
میموری پوائزننگ (Memory Poisoning): حملہ آور مستقبل کے سیشنز میں حملے کرنے کے لیے ماڈل کی طویل مدتی یادداشت (long-term memory) میں غلط ہدایات لکھ دیتے ہیں۔
ملٹی ایجنٹ پھیلاؤ (Multi-Agent Spread): ایک ایجنٹ کا آؤٹ پٹ دوسرے ایجنٹ کی ہدایت ہوتا ہے۔ ایک حملہ آپ کے پورے سسٹم میں پھیل سکتا ہے۔
MCP پوائزننگ (MCP Poisoning): بدنیتی پر مبنی ٹول کی تفصیلات ماڈل کو کریڈنشلز (credentials) دینے پر مجبور کر سکتی ہیں۔

حل بہتر ماڈل نہیں ہے۔ یہ بہتر آرکیٹیکچر (architecture) ہے۔

کم سے کم مراعات (least privilege) کا استعمال کریں۔
اہم اقدامات کے لیے انسان کو عمل میں شامل کریں (human in the loop)۔
کبھی بھی ایک ہی راستے کو ایک ہی وقت میں نجی ڈیٹا، غیر معتبر ان پٹ، اور باہر نکلنے کا راستہ نہ بننے دیں۔

اپنے ایجنٹس کو ایسے بنائیں جیسے وہ پہلے ہی کمپرومائزڈ (compromised) ہیں۔ ان کی صلاحیتوں کو محدود کریں، نہ کہ صرف ان کی باتوں کو۔

ماخذ: https://dev.to/weboko/llm-vulnerabilities-101-3pcj

اختیاری سیکھنے کی کمیونٹی: https://t.me/GyaanSetuAi

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

Continue reading

LLM پرامپٹ انجیکشن اور گارڈ ریل سیکیورٹی

𝗟𝗟𝗠 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀

𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻 𝗗𝗲𝗳𝗲𝗻𝗰𝗲: 𝗔 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗣𝗹𝗮𝘆𝗯𝗼𝗼𝗸

آپ کے AI ایجنٹ نے ایک پیج اسکریپ کیا۔ پیج نے اسے بتایا کہ کیا کرنا ہے۔

پرامپٹ انجیکشن کے خلاف AI ایجنٹس کو مضبوط بنانا