Anthropic تستعيد الوصول العالمي إلى Fable 5 بعد حظر من الحكومة الأمريكية

استأنفت Anthropic رسمياً الإطلاق العالمي لـ Fable 5، أقوى نماذج الذكاء الاصطناعي لديها، بعد تعليق دام أسبوعين بموجب أمر من الحكومة الأمريكية. وقد نتج الحظر عن اكتشاف أمني حرج يتعلق بثغرة "كسر الحماية" (jailbreak) سمحت للنموذج بتجاوز ضوابط السلامة المعمول بها.

الثغرة الأمنية: من الأبحاث الدفاعية إلى المخاطر الأمنية

نبع هذا القيد المفاجئ من تقرير أمني أعده باحثون من Amazon نجحوا في تجاوز بروتوكولات السلامة الخاصة بـ Fable 5. واكتشف الباحثون أن النموذج يمكنه تحديد ثغرات برمجية معينة، وفي حالة بارزة، تمكن من إنشاء كود برمجي وظيفي لاستغلالها.

وبينما وصفت Anthropic هذا الأمر بأنه "حالة استثنائية" (edge case) تتعلق بأعمال الأمن السيبراني الدفاعية الروتينية، إلا أن احتمال إساءة الاستخدام استلزم إجراء تحقيق مشترك بين الشركة والوكالات الحكومية الأمريكية. ومن المثير للاهتمام أن التحقيق كشف أن القدرة على تحديد هذه العيوب لم تكن مقتصرة على Fable 5 فحسب؛ بل أظهرت نماذج أخرى، بما في ذلك Claude Opus 4.8 و GPT-5.5 و Kimi K2.7، قدرات مماثلة. حتى النماذج الأصغر مثل Claude Haiku 4.5 أنتجت نفس نتائج الاستغلال أثناء الاختبار.

تطبيق مصنفات سلامة جديدة ومقايضة "النتائج الإيجابية الخاطئة"

لمعالجة هذه المشكلة، قامت Anthropic بنشر مصنف سلامة مطور صُمم لحظر تقنية الاستغلال المحددة التي وردت في تقرير Amazon بدقة تتجاوز 99%. وعندما يؤدي طلب المستخدم إلى تفعيل طبقة الدفاع الجديدة هذه، يتلقى المستخدم إشعاراً، ويتم توجيه الاستعلام تلقائياً إلى نموذج Claude Opus 4.8 الأقدم والأكثر تقييداً.

ومع ذلك، فإن هذا الأمن المعزز يأتي بتكلفة وظيفية. فقد اعترفت Anthropic بأن المصنف الجديد يميل إلى تحديد الطلبات غير الضارة بشكل متكرر أثناء مهام البرمجة وتصحيح الأخطاء القياسية. وتخلق "هامش السلامة" هذا توتراً بين المتانة وسهولة الاستخدام — وهو تحدٍ متكرر في نشر النماذج الرائدة (frontier models) حيث يؤدي منع المخرجات الخطيرة غالباً إلى زيادة "الرفض" لاستفسارات المطورين المشروعة.

السعي نحو معايير صناعية وإشراف حكومي

أدى حادث Fable 5 إلى تسريع جهود Anthropic الرامية إلى وضع معايير سلامة رسمية على مستوى الصناعة. وتتعاون الشركة حالياً مع Amazon و Microsoft و Google من خلال برنامج "Glasswing" لبناء إطار عمل لتقييم عمليات كسر الحماية (jailbreaks) وتفعيل تدابير مضادة موحدة. ولتعزيز ذلك، أطلقت Anthropic فريق مراقبة مخصصاً يعمل على مدار الساعة، وبرنامج HackerOne جديداً لتحفيز الباحثين الأمنيين على الإبلاغ عن عمليات كسر الحماية المتعلقة بالأمن السيبراني.

علاوة على ذلك، تدعو Anthropic إلى تطبيق "تنظيم قوي" ينطبق بالتساوي على جميع مطوري النماذج الرائدة. ومن خلال منح الشركاء الحكوميين إمكانية الوصول المسبق للنماذج الحساسة أمنياً وتخصيص قدرات حوسبة كبيرة للأبحاث المشتركة، تضع Anthropic نفسها كقائد في الحركة نحو إشراف شفاف على الذكاء الاصطناعي يتماشى مع التوجهات الحكومية.

النقاط الرئيسية

  • استعادة الوصول: يتوفر Fable 5 مرة أخرى عبر Claude.ai و Claude Code و Claude Cowork، مع حصول خطط Pro و Max و Team على الوصول حتى 7 يوليو.
  • طبقات دفاع جديدة: طبقت Anthropic مصنف سلامة يحظر 99% من تقنية الاستغلال المحددة، رغم أنه قد يزيد من النتائج الإيجابية الخاطئة في سير عمل البرمجة.
  • الأمن التعاوني: تشارك Anthropic كبار اللاعبين في مجال التكنولوجيا والحكومة الأمريكية لوضع معايير صناعية مشتركة لمراقبة عمليات كسر الحماية في النماذج الرائدة والاستجابة لها.