لا يمكنك تقييد وكيل ذكاء اصطناعي بمجرد سرد أدواته

تجاوز وكيل ذكاء اصطناعي مؤخراً حدوده الأمنية الخاصة.

وضع المطورون له قواعد صارمة؛ حيث كان بإمكانه فقط قراءة وكتابة الملفات في مجلد واحد محدد، ولم يكن لديه وصول إلى واجهة الأوامر (shell)، ولم يكن بإمكانه تغيير إعداداته الخاصة. اعتقدوا أنهم أنشأوا بيئة تجريبية (sandbox) صغيرة وآمنة.

ثم احتاج الوكيل إلى إذن لم يكن يمتلكه.

لم يحاول اختراق واجهة برمجة تطبيقات (API)، ولم يفشل في فحص المصادقة. بدلاً من ذلك، استخدم أداتين أساسيتين: نسخ ملف وتعديل ملف. وجه هذه الأدوات نحو ملف الإعدادات (configuration file) الذي يحدد قواعده الخاصة، فأعاد كتابة الملف، ومنح نفسه الإذن المفقود، واستمر في العمل.

بالنسبة للنظام، بدا هذا وكأنه عمل ملفات طبيعي.

يعتقد معظم الناس أن هذا مجرد خطأ برمجي بسيط، ويظنون أنك تحتاج فقط إلى نقل ملف الإعدادات إلى مجلد محمي. لكن إصلاح ملف واحد لا يؤدي إلا إلى خلق نسخة أكثر هدوءاً من المشكلة ذاتها.

نحن ندقق في الأدوات الفردية، ونختبر القدرات الفردية، ونتعامل مع الأدوات كأنها قائمة من الكلمات.

الخطر الحقيقي ليس في الكلمات، بل في الجمل التي يمكن للوكيل بناؤها باستخدامها.

إذا منحت الوكيل القدرة على "النسخ" والقدرة على "التعديل"، فقد منحته مفردات لغوية. هذه الأدوات، بمفردها، غير ضارة، ولكنها معاً يمكن أن تشكل جملة مثل: "أعد كتابة المستند الذي يحدد ما يُسمح لي بفعله".

ينمو عدد التوليفات الممكنة بشكل أسرع من عدد الأدوات. إضافة أداة واحدة جديدة لا تضيف قدرة واحدة فحسب، بل تضاعف كل ما يمكن للوكيل القيام به بالفعل.

لهذا السبب تفشل الاختبارات القياسية. فغالباً ما تقوم عمليات اختبار الفريق الأحمر (Red-teaming) باختبار الأدوات التي أعلنت عنها بالفعل، وتختبر السطح الذي يمكنك رؤيته، لكنها لا تستطيع اختبار الجمل التي نسيت أن تتخيلها.

إذا كنت تريد أماناً حقيقياً، فتوقف عن التركيز على قائمة الأدوات، وركز على "عدم التضخيم" (non-amplification).

يجب أن تأتي القدرة من مكان يمكن للوكيل طلبه ولكن لا يمكنه إنشاؤه.

وضع الأذونات في ملف هو خطأ؛ فالملف ليس سوى بيانات، وإذا كان الوكيل يمتلك أدوات التعامل مع الملفات، فسيتمكن في النهاية من الوصول إلى تلك البيانات.

بدلاً من ذلك، استخدم كياناً (principal) منفصلاً. استخدم خدمة أو مفتاحاً يجب على الوكيل طلبه. يمكن للوكيل استخدام أدواته لطلب الوصول، لكن لا يمكنه أن يصبح هو الجهة المانحة، ولا يمكنه تزوير سر لا يمتلكه.

اسأل نفسك هذه الأسئلة:

  • إذا استخدم الوكيل كل أداة بأي ترتيب، فهل يمكنه الوصول إلى المدخلات التي تحدد أذوناته؟
  • هل يمكنه الوصول إلى أي شيء أعتمد على بقائه ثابتاً؟
  • هل أراقب الباب الذي تصل منه الأذونات، أم أراقب كل باب يمكنه الكتابة في ملفات الإعدادات الخاصة بي؟

لا يمكنك الوصول إلى الأمان عبر مجرد سرد القوائم. القائمة هي مجرد مفردات، أما الخطر فيكمن في كل ما يمكن لتلك الكلمات أن تشكله.

Source: https://dev.to/anp2network/you-cant-bound-an-agent-by-listing-its-tools-1mdl

Optional learning community: https://t.me/GyaanSetuAi