Anthropic پس از ممنوعیت دولت ایالات متحده، دسترسی جهانی به Fable 5 را بازیابی کرد
Anthropic پس از یک تعلیق دو هفتهای به دستور دولت ایالات متحده، رسماً عرضه جهانی Fable 5، قدرتمندترین مدل هوش مصنوعی خود را از سر گرفت. این ممنوعیت در پی یک یافته امنیتی حیاتی مربوط به آسیبپذیری «جیلبریک» (jailbreak) ایجاد شد که به مدل اجازه میداد از حفاظهای امنیتی تعیینشده عبور کند.
آسیبپذیری: از تحقیقات دفاعی تا ریسک امنیتی
این محدودیت ناگهانی ناشی از گزارش امنیتی محققان Amazon بود که با موفقیت پروتکلهای ایمنی Fable 5 را دور زدند. محققان دریافتند که این مدل میتواند آسیبپذیریهای نرمافزاری خاصی را شناسایی کند و در یک مورد قابل توجه، کدی کاربردی برای بهرهبرداری از آنها تولید کند.
اگرچه Anthropic این موضوع را یک «مورد استثنایی» (edge case) در قالب کارهای معمول امنیت سایبری دفاعی توصیف کرد، اما پتانسیل سوءاستفاده از آن، انجام یک تحقیقات مشترک بین این شرکت و آژانسهای دولتی ایالات متحده را ضروری ساخت. جالب اینجاست که تحقیقات نشان داد توانایی شناسایی این نقصها منحصر به Fable 5 نیست؛ مدلهای دیگر از جمله Claude Opus 4.8، GPT-5.5 و Kimi K2.7 نیز قابلیتهای مشابهی از خود نشان دادند. حتی مدلهای کوچکتر مانند Claude Haiku 4.5 نیز در طول آزمایشها نتایج بهرهبرداری مشابهی تولید کردند.
پیادهسازی طبقهبندیکنندههای امنیتی جدید و چالش «مثبت کاذب»
برای رفع این مشکل، Anthropic یک طبقهبندیکننده امنیتی بهبودیافته را مستقر کرده است که برای مسدود کردن تکنیک خاص بهرهبرداری شناساییشده در گزارش Amazon با دقت بیش از ۹۹ درصد طراحی شده است. هنگامی که درخواست کاربر این لایه دفاعی جدید را فعال میکند، پیامی به او نمایش داده میشود و پرسوجو بهطور خودکار به مدل قدیمیتر و محدودتر Claude Opus 4.8 هدایت میشود.
با این حال، این امنیت ارتقایافته هزینهای عملکردی نیز دارد. Anthropic اذعان کرد که طبقهبندیکننده جدید تمایل دارد درخواستهای بیخطر را در طول وظایف معمول کدنویسی و عیبیابی (debugging) با فراوانی بیشتری علامتگذاری کند. این «حاشیه امنیت» تنشی میان استحکام و قابلیت استفاده ایجاد میکند؛ چالشی تکرار شونده در استقرار مدلهای پیشرو (frontier models) که در آن جلوگیری از خروجیهای خطرناک اغلب منجر به افزایش «امتناع» از پاسخ به پرسوجوهای مشروع توسعهدهندگان میشود.
تلاش برای ایجاد استانداردهای صنعتی و نظارت دولتی
حادثه Fable 5 باعث تسریع تلاشهای Anthropic برای ایجاد استانداردهای ایمنی رسمی و در سطح صنعت شده است. این شرکت در حال حاضر از طریق برنامه "Glasswing" با Amazon، Microsoft و Google در حال همکاری است تا چارچوبی برای رتبهبندی جیلبریکها و فعالسازی اقدامات متقابل استاندارد ایجاد کند. برای تقویت این روند، Anthropic یک تیم نظارتی اختصاصی ۲۴/۷ و برنامه جدید HackerOne را راهاندازی کرده است تا محققان امنیتی را برای گزارش جیلبریکهای مرتبط با فضای سایبری تشویق کند.
علاوه بر این، Anthropic خواستار «مقررات سختگیرانه» است که بهطور یکسان برای تمام توسعهدهندگان مدلهای پیشرو اعمال شود. Anthropic با ارائه دسترسی پیش از انتشار به مدلهای حساس از نظر امنیتی به شرکای دولتی و اختصاص منابع محاسباتی (compute) قابل توجه برای تحقیقات مشترک، خود را به عنوان پیشرو در جنبش به سوی نظارت شفاف و همسو با دولت بر هوش مصنوعی معرفی میکند.
نکات کلیدی
- بازگشت دسترسی: Fable 5 مجدداً از طریق Claude.ai، Claude Code و Claude Cowork در دسترس است و طرحهای Pro، Max و Team تا ۷ جولای به آن دسترسی خواهند داشت.
- لایههای دفاعی جدید: Anthropic یک طبقهبندیکننده امنیتی پیادهسازی کرده است که ۹۹ درصد از تکنیک بهرهبرداری شناساییشده را مسدود میکند، اگرچه ممکن است باعث افزایش موارد مثبت کاذب در جریانهای کاری کدنویسی شود.
- امنیت مشارکتی: Anthropic با بازیگران بزرگ فناوری و دولت ایالات متحده همکاری میکند تا استانداردهای مشترک صنعتی را برای نظارت و پاسخ به جیلبریکهای مدلهای پیشرو ایجاد کند.
