حقن الأوامر في النماذج اللغوية الكبيرة (LLM Prompt Injection) وأمن الحواجز الوقائية (Guardrail Security)
تفتقر النماذج اللغوية الكبيرة (LLMs) إلى وجود حدود فاصلة حازمة بين التعليمات والبيانات؛ فكل ما يوجد في نافذة السياق (context window) هو عبارة عن تدفق واحد من الرموز (tokens). يحدث حقن الأوامر (Prompt injection) عندما تعمل بيانات المهاجم كتعليمات. لا يمكنك الاعتماد على التصفية وحدها للوصول إلى الأمان، بل يجب عليك إدارته من خلال استراتيجية "الدفاع المتعمق" (defense-in-depth).
فشل الدفاعات الشائعة:
- قوائم الكلمات المحظورة (Keyword Blocklists): يستخدم المهاجمون المرادفات، أو الأخطاء الإملائية، أو لغات مختلفة لتجاوزها. تصفية النصوص لا تعني تصفية النوايا.
- حجب المخرجات (Output Redaction): يمكن للمهاجمين تجزئة الأسرار أو تشفيرها بحيث تفشل عملية المطابقة النصية الحرفية.
- نماذج LLM كقضاة (LLM Judges): يمكن استخدام الهندسة الاجتماعية مع نموذج منفصل لإقناعه بأن السر غير ضار.
- المراجعة البشرية (Human Review): يرى البشر النص المعروض، وليس البايتات الخام. لا يمكنهم رؤية الأحرف المخفية المستخدمة في تهريب ASCII (ASCII smuggling).
يعد تهريب ASCII (ASCII Smuggling) تهديدًا رئيسيًا، حيث يستخدم أحرفًا غير مرئية مثل علامات Unicode أو المسافات ذات العرض الصفر (zero-width spaces) لإخفاء التعليمات. يقرأها النموذج، لكن الإنسان لا يرى شيئًا، مما يتيح انتحال الهوية وتسريب البيانات عبر البريد الإلكتروني أو التقاويم.
كيف تحمي تطبيقك:
- تطهير البيانات الخام (Sanitize raw payloads): قم بإزالة أحرف التحكم والأحرف ذات العرض الصفر قبل وصولها إلى النموذج.
- استخدام القوائم المسموح بها (Allowlists): حدد فئات Unicode المحددة التي تحتاجها بدلاً من مطاردة الفئات الضارة.
- تطبيع البيانات (Normalize data): استخدم تطبيع NFKC على جميع المدخلات.
- تقليل الأسرار: لا تضع بيانات حساسة في نافذة السياق إذا لم يكن النموذج بحاجة إليها.
- تعامل مع RAG كجهة غير موثوقة: افترض أن أي مستند تسترجعه للنموذج هو ناقل محتمل للحقن.
- راقب الشذوذ: ضع علامة على المدخلات التي يختلف فيها الطول المرئي عن عدد نقاط الكود (code-point count) الخام.
الأمن هو خلل في خط الإنتاج (pipeline)، وليس مجرد خلل في النموذج. الحل يكمن في كود التطبيق الخاص بك.
المصدر: https://dev.to/geekaara/llm-prompt-injection-guardrail-security-glm
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi