अमेरिकी सरकार के प्रतिबंध के बाद Anthropic ने Fable 5 तक वैश्विक पहुंच बहाल की

अमेरिकी सरकार द्वारा अनिवार्य दो सप्ताह के निलंबन के बाद, Anthropic ने अपने सबसे शक्तिशाली AI मॉडल, Fable 5 के विश्वव्यापी रोलआउट को आधिकारिक तौर पर फिर से शुरू कर दिया है। यह प्रतिबंध एक महत्वपूर्ण सुरक्षा खोज के कारण लगा था, जिसमें एक 'jailbreak' भेद्यता (vulnerability) शामिल थी, जिसने मॉडल को स्थापित सुरक्षा गार्डरेल्स (safety guardrails) को बायपास करने की अनुमति दी थी।

भेद्यता: रक्षात्मक अनुसंधान से सुरक्षा जोखिम तक

यह अचानक प्रतिबंध Amazon के शोधकर्ताओं की एक सुरक्षा रिपोर्ट से उपजा था, जिन्होंने Fable 5 के सुरक्षा प्रोटोकॉल को सफलतापूर्वक बायपास कर दिया था। शोधकर्ताओं ने पाया कि मॉडल विशिष्ट सॉफ़्टवेयर भेद्यताओं की पहचान कर सकता है और एक उल्लेखनीय मामले में, उनका फायदा उठाने के लिए कार्यात्मक कोड (functional code) भी तैयार कर सकता है।

हालांकि Anthropic ने इसे नियमित रक्षात्मक साइबर सुरक्षा कार्य से संबंधित एक "edge case" बताया, लेकिन दुरुपयोग की संभावना के कारण कंपनी और अमेरिकी सरकारी एजेंसियों के बीच एक संयुक्त जांच आवश्यक हो गई। दिलचस्प बात यह है कि जांच में पता चला कि इन खामियों की पहचान करने की क्षमता केवल Fable 5 तक ही सीमित नहीं थी; Claude Opus 4.8, GPT-5.5 और Kimi K2.7 सहित अन्य मॉडलों में भी इसी तरह की क्षमताएं देखी गईं। परीक्षण के दौरान Claude Haiku 4.5 जैसे छोटे मॉडलों ने भी समान एक्सप्लॉइट (exploit) परिणाम दिए।

नए सुरक्षा क्लासिफायर लागू करना और "False Positive" का समझौता

इस समस्या के समाधान के लिए, Anthropic ने एक बेहतर सुरक्षा क्लासिफायर (safety classifier) तैनात किया है, जिसे Amazon की रिपोर्ट में पहचानी गई विशिष्ट शोषण तकनीक (exploitation technique) को 99% से अधिक सटीकता के साथ रोकने के लिए डिज़ाइन किया गया है। जब किसी उपयोगकर्ता का अनुरोध सुरक्षा की इस नई परत को सक्रिय करता है, तो उन्हें एक सूचना प्राप्त होती है, और उस क्वेरी को स्वचालित रूप से पुराने और अधिक प्रतिबंधित Claude Opus 4.8 मॉडल पर भेज दिया जाता है।

हालांकि, इस बढ़ी हुई सुरक्षा के साथ एक कार्यात्मक लागत (functional cost) भी जुड़ी है। Anthropic ने स्वीकार किया कि नया क्लासिफायर मानक कोडिंग और डिबगिंग कार्यों के दौरान हानिरहित अनुरोधों को भी अधिक बार फ्लैग (flag) करने लगता है। यह "सुरक्षा मार्जिन" मजबूती और उपयोगिता के बीच एक तनाव पैदा करता है—जो फ्रंटियर मॉडल परिनियोजन (frontier model deployment) में एक आवर्ती चुनौती है, जहाँ खतरनाक आउटपुट को रोकने से अक्सर वैध डेवलपर क्वेरीज़ के "अस्वीकार" (refusals) होने की दर बढ़ जाती है।

उद्योग मानकों और सरकारी निरीक्षण के लिए एक प्रयास

Fable 5 की घटना ने औपचारिक, उद्योग-व्यापी सुरक्षा मानकों के लिए Anthropic के प्रयासों को तेज कर दिया है। कंपनी वर्तमान में "Glasswing" कार्यक्रम के माध्यम से Amazon, Microsoft और Google के साथ मिलकर jailbreaks को रेट करने और मानकीकृत जवाबी उपायों (countermeasures) को सक्रिय करने के लिए एक ढांचा तैयार करने के लिए सहयोग कर रही है। इसे मजबूत करने के लिए, Anthropic ने एक समर्पित 24/7 निगरानी टीम और एक नया HackerOne कार्यक्रम शुरू किया है ताकि सुरक्षा शोधकर्ताओं को साइबर-संबंधित jailbreaks की रिपोर्ट करने के लिए प्रोत्साहित किया जा सके।

इसके अलावा, Anthropic सभी फ्रंटियर मॉडल डेवलपर्स पर समान रूप से लागू होने वाले "कड़े विनियमन" (strong regulation) की वकालत कर रहा है। सरकारी भागीदारों को सुरक्षा-संवेदनशील मॉडलों तक प्री-रिलीज़ एक्सेस प्रदान करके और संयुक्त अनुसंधान के लिए महत्वपूर्ण कंप्यूट (compute) समर्पित करके, Anthropic खुद को पारदर्शी, सरकार-संबद्ध AI निरीक्षण की दिशा में एक अग्रणी के रूप में स्थापित कर रहा है।

मुख्य बातें

  • बहाल पहुंच: Fable 5 अब Claude.ai, Claude Code और Claude Cowork के माध्यम से फिर से उपलब्ध है, जिसमें Pro, Max और Team प्लान्स को 7 जुलाई तक एक्सेस मिलेगा।
  • नई सुरक्षा परतें: Anthropic ने एक सुरक्षा क्लासिफायर लागू किया है जो पहचानी गई शोषण तकनीक के 99% हिस्से को रोकता है, हालांकि यह कोडिंग वर्कफ़्लो में false positives को बढ़ा सकता है।
  • सहयोगात्मक सुरक्षा: Anthropic फ्रंटियर मॉडल jailbreaks की निगरानी और उन पर प्रतिक्रिया देने के लिए साझा उद्योग मानक स्थापित करने हेतु प्रमुख टेक कंपनियों और अमेरिकी सरकार के साथ साझेदारी कर रहा है।