अमेरिकन सरकारचा बंदी उठवल्यानंतर Anthropic ने Fable 5 चा जागतिक प्रवेश पुन्हा सुरू केला
अमेरिकन सरकारने दोन आठवड्यांच्या निलंबनानंतर, Anthropic ने आपले सर्वात शक्तिशाली AI मॉडेल Fable 5 चे जागतिक स्तरावर वितरण अधिकृतपणे पुन्हा सुरू केले आहे. मॉडेलने स्थापित सुरक्षा नियमांना (safety guardrails) बगल देण्यास सक्षम करणाऱ्या 'जेलब्रेक' (jailbreak) असुरक्षिततेच्या महत्त्वपूर्ण सुरक्षा शोधामुळे ही बंदी घालण्यात आली होती.
असुरक्षितता: संरक्षणात्मक संशोधनापासून सुरक्षा जोखमीपर्यंत
ही अचानक आलेली मर्यादा Amazon च्या संशोधकांनी सादर केलेल्या सुरक्षा अहवालातून उद्भवली होती, ज्यांनी Fable 5 च्या सुरक्षा प्रोटोकॉलना यशस्वीरित्या बगल दिली होती. संशोधकांना असे आढळले की हे मॉडेल विशिष्ट सॉफ्टवेअरमधील त्रुटी (vulnerabilities) ओळखू शकते आणि एका महत्त्वाच्या प्रकरणात, त्यांचा फायदा घेण्यासाठी कार्यात्मक कोड (functional code) देखील तयार करू शकते.
जरी Anthropic ने याला नियमित संरक्षणात्मक सायबर सुरक्षा कार्याशी संबंधित एक "एज केस" (edge case) असे संबोधले असले, तरी गैरवापराच्या शक्यतेमुळे कंपनी आणि अमेरिकन सरकारी संस्थांमध्ये संयुक्त तपास करणे आवश्यक झाले. विशेष म्हणजे, या तपासात असे दिसून आले की या त्रुटी ओळखण्याची क्षमता केवळ Fable 5 पुरती मर्यादित नव्हती; Claude Opus 4.8, GPT-5.5 आणि Kimi K2.7 सह इतर मॉडेल्समध्येही अशीच क्षमता दिसून आली. अगदी Claude Haiku 4.5 सारखी लहान मॉडेल्स देखील चाचणी दरम्यान असेच 'एक्सप्लॉइट' (exploit) निकाल देत होती.
नवीन सुरक्षा क्लासिफायर लागू करणे आणि "फॉल्स पॉझिटिव्ह" (False Positive) मधील तडजोड
ही समस्या सोडवण्यासाठी, Anthropic ने एक सुधारित 'सेफ्टी क्लासिफायर' (safety classifier) तैनात केला आहे, जो Amazon च्या अहवालात आढळलेली विशिष्ट एक्सप्लॉइट तंत्रज्ञान ९९% पेक्षा जास्त अचूकतेने रोखण्यासाठी डिझाइन केला आहे. जेव्हा वापरकर्त्याची विनंती या नवीन सुरक्षा थराला स्पर्श करते, तेव्हा त्यांना सूचना मिळते आणि ती क्वेरी आपोआप जुन्या, अधिक प्रतिबंधित Claude Opus 4.8 मॉडेलकडे वळवली जाते.
तथापि, या वाढीव सुरक्षेमुळे कार्यात्मक मर्यादा निर्माण होतात. Anthropic ने कबूल केले आहे की, नवीन क्लासिफायर सामान्य कोडिंग आणि डीबगिंग (debugging) कामांदरम्यान निरुपद्रवी विनंत्यांनाही वारंवार 'फ्लॅग' (flag) करण्याची शक्यता असते. ही "सुरक्षा मर्यादा" (safety margin) मजबूती आणि वापरण्यायोग्यता यांच्यात तणाव निर्माण करते—जे फ्रंटियर मॉडेलच्या तैनातीमध्ये एक वारंवार येणारे आव्हान आहे, जिथे धोकादायक आउटपुट रोखण्याच्या प्रयत्नात अनेकदा वैध डेव्हलपर क्वेरी नाकारल्या जातात.
उद्योग मानके आणि सरकारी देखरेखीसाठी प्रयत्न
Fable 5 च्या घटनेमुळे Anthropic ने औपचारिक, उद्योग-व्यापी सुरक्षा मानकांसाठी केलेल्या प्रयत्नांना गती मिळाली आहे. कंपनी सध्या "Glasswing" कार्यक्रमाद्वारे Amazon, Microsoft आणि Google सोबत सहयोग करत आहे, जेणेकरून जेलब्रेक्सचे रेटिंग करण्यासाठी आणि प्रमाणित प्रतिसादात्मक उपाय (countermeasures) कार्यान्वित करण्यासाठी एक फ्रेमवर्क तयार करता येईल. याला बळकटी देण्यासाठी, Anthropic ने २४/७ समर्पित मॉनिटरिंग टीम आणि सायबर-संबंधित जेलब्रेक्स रिपोर्ट करण्यासाठी सुरक्षा संशोधकांना प्रोत्साहित करण्यासाठी एक नवीन HackerOne कार्यक्रम सुरू केला आहे.
शिवाय, Anthropic सर्व फ्रंटियर मॉडेल डेव्हलपर्सना समान रीतीने लागू होणाऱ्या "कठोर नियमावलीचे" (strong regulation) समर्थन करत आहे. सरकारी भागीदारांना सुरक्षा-संवेदनशील मॉडेल्सचा प्री-रिलीज प्रवेश देऊन आणि संयुक्त संशोधनासाठी महत्त्वपूर्ण 'कम्प्युट' (compute) उपलब्ध करून देऊन, Anthropic स्वतःला पारदर्शक आणि सरकारी-सुसंगत AI देखरेखीच्या चळवळीतील एक नेता म्हणून प्रस्थापित करत आहे.
मुख्य मुद्दे
- पुन्हा सुरू झालेला प्रवेश: Fable 5 आता Claude.ai, Claude Code आणि Claude Cowork द्वारे पुन्हा उपलब्ध आहे; Pro, Max आणि Team प्लॅन्सना ७ जुलैपर्यंत प्रवेश मिळेल.
- नवीन संरक्षण स्तर: Anthropic ने एक सेफ्टी क्लासिफायर लागू केला आहे जो ओळखलेल्या एक्सप्लॉइट तंत्रातील ९९% भाग रोखतो, जरी यामुळे कोडिंग वर्कफ्लोमध्ये 'फॉल्स पॉझिटिव्ह' वाढण्याची शक्यता आहे.
- सहयोगी सुरक्षा: फ्रंटियर मॉडेल जेलब्रेक्सवर लक्ष ठेवण्यासाठी आणि त्यांना प्रतिसाद देण्यासाठी उद्योग मानके स्थापित करण्यासाठी Anthropic प्रमुख टेक कंपन्या आणि अमेरिकन सरकारसोबत भागीदारी करत आहे.
