Anthropic پس از ممنوعیت دولت ایالات متحده، دسترسی جهانی به Fable 5 را بازیابی کرد

Anthropic پس از یک تعلیق دو هفته‌ای به دستور دولت ایالات متحده، رسماً عرضه جهانی Fable 5، قدرتمندترین مدل هوش مصنوعی خود را از سر گرفت. این ممنوعیت در پی یک یافته امنیتی حیاتی مربوط به آسیب‌پذیری «جیل‌بریک» (jailbreak) ایجاد شد که به مدل اجازه می‌داد از حفاظ‌های امنیتی تعیین‌شده عبور کند.

آسیب‌پذیری: از تحقیقات دفاعی تا ریسک امنیتی

این محدودیت ناگهانی ناشی از گزارش امنیتی محققان Amazon بود که با موفقیت پروتکل‌های ایمنی Fable 5 را دور زدند. محققان دریافتند که این مدل می‌تواند آسیب‌پذیری‌های نرم‌افزاری خاصی را شناسایی کند و در یک مورد قابل توجه، کدی کاربردی برای بهره‌برداری از آن‌ها تولید کند.

اگرچه Anthropic این موضوع را یک «مورد استثنایی» (edge case) در قالب کارهای معمول امنیت سایبری دفاعی توصیف کرد، اما پتانسیل سوءاستفاده از آن، انجام یک تحقیقات مشترک بین این شرکت و آژانس‌های دولتی ایالات متحده را ضروری ساخت. جالب اینجاست که تحقیقات نشان داد توانایی شناسایی این نقص‌ها منحصر به Fable 5 نیست؛ مدل‌های دیگر از جمله Claude Opus 4.8، GPT-5.5 و Kimi K2.7 نیز قابلیت‌های مشابهی از خود نشان دادند. حتی مدل‌های کوچک‌تر مانند Claude Haiku 4.5 نیز در طول آزمایش‌ها نتایج بهره‌برداری مشابهی تولید کردند.

پیاده‌سازی طبقه‌بندی‌کننده‌های امنیتی جدید و چالش «مثبت کاذب»

برای رفع این مشکل، Anthropic یک طبقه‌بندی‌کننده امنیتی بهبودیافته را مستقر کرده است که برای مسدود کردن تکنیک خاص بهره‌برداری شناسایی‌شده در گزارش Amazon با دقت بیش از ۹۹ درصد طراحی شده است. هنگامی که درخواست کاربر این لایه دفاعی جدید را فعال می‌کند، پیامی به او نمایش داده می‌شود و پرس‌وجو به‌طور خودکار به مدل قدیمی‌تر و محدودتر Claude Opus 4.8 هدایت می‌شود.

با این حال، این امنیت ارتقایافته هزینه‌ای عملکردی نیز دارد. Anthropic اذعان کرد که طبقه‌بندی‌کننده جدید تمایل دارد درخواست‌های بی‌خطر را در طول وظایف معمول کدنویسی و عیب‌یابی (debugging) با فراوانی بیشتری علامت‌گذاری کند. این «حاشیه امنیت» تنشی میان استحکام و قابلیت استفاده ایجاد می‌کند؛ چالشی تکرار شونده در استقرار مدل‌های پیشرو (frontier models) که در آن جلوگیری از خروجی‌های خطرناک اغلب منجر به افزایش «امتناع» از پاسخ به پرس‌وجوهای مشروع توسعه‌دهندگان می‌شود.

تلاش برای ایجاد استانداردهای صنعتی و نظارت دولتی

حادثه Fable 5 باعث تسریع تلاش‌های Anthropic برای ایجاد استانداردهای ایمنی رسمی و در سطح صنعت شده است. این شرکت در حال حاضر از طریق برنامه "Glasswing" با Amazon، Microsoft و Google در حال همکاری است تا چارچوبی برای رتبه‌بندی جیل‌بریک‌ها و فعال‌سازی اقدامات متقابل استاندارد ایجاد کند. برای تقویت این روند، Anthropic یک تیم نظارتی اختصاصی ۲۴/۷ و برنامه جدید HackerOne را راه‌اندازی کرده است تا محققان امنیتی را برای گزارش جیل‌بریک‌های مرتبط با فضای سایبری تشویق کند.

علاوه بر این، Anthropic خواستار «مقررات سخت‌گیرانه» است که به‌طور یکسان برای تمام توسعه‌دهندگان مدل‌های پیشرو اعمال شود. Anthropic با ارائه دسترسی پیش از انتشار به مدل‌های حساس از نظر امنیتی به شرکای دولتی و اختصاص منابع محاسباتی (compute) قابل توجه برای تحقیقات مشترک، خود را به عنوان پیشرو در جنبش به سوی نظارت شفاف و همسو با دولت بر هوش مصنوعی معرفی می‌کند.

نکات کلیدی

  • بازگشت دسترسی: Fable 5 مجدداً از طریق Claude.ai، Claude Code و Claude Cowork در دسترس است و طرح‌های Pro، Max و Team تا ۷ جولای به آن دسترسی خواهند داشت.
  • لایه‌های دفاعی جدید: Anthropic یک طبقه‌بندی‌کننده امنیتی پیاده‌سازی کرده است که ۹۹ درصد از تکنیک بهره‌برداری شناسایی‌شده را مسدود می‌کند، اگرچه ممکن است باعث افزایش موارد مثبت کاذب در جریان‌های کاری کدنویسی شود.
  • امنیت مشارکتی: Anthropic با بازیگران بزرگ فناوری و دولت ایالات متحده همکاری می‌کند تا استانداردهای مشترک صنعتی را برای نظارت و پاسخ به جیل‌بریک‌های مدل‌های پیشرو ایجاد کند.