Anthropic, ABD Hükümeti Yasağının Ardından Fable 5'e Küresel Erişimi Yeniden Sağladı

Anthropic, ABD hükümeti tarafından zorunlu kılınan iki haftalık askıya alma sürecinin ardından, en güçlü yapay zeka modeli olan Fable 5'in dünya çapındaki dağıtımına resmi olarak yeniden başladı. Yasak, modelin yerleşik güvenlik bariyerlerini aşmasına olanak tanıyan bir "jailbreak" (sistem kırma) zafiyetini içeren kritik bir güvenlik bulgusu nedeniyle tetiklendi.

Zafiyet: Savunma Araştırmalarından Güvenlik Riskine

Ani kısıtlama, Fable 5'in güvenlik protokollerini başarıyla aşan Amazon araştırmacılarının hazırladığı bir güvenlik raporundan kaynaklandı. Araştırmacılar, modelin belirli yazılım zafiyetlerini tanımlayabildiğini ve dikkat çekici bir örnekte, bunları istismar etmek için işlevsel kodlar üretebildiğini keşfetti.

Anthropic bunu rutin savunma amaçlı siber güvenlik çalışmalarıyla ilgili bir "uç durum" (edge case) olarak nitelendirse de, kötüye kullanım potansiyeli şirket ile ABD hükümet kurumları arasında ortak bir soruşturma yapılmasını gerektirdi. İlginç bir şekilde soruşturma, bu kusurları tanımlama yeteneğinin yalnızca Fable 5'e özgü olmadığını; Claude Opus 4.8, GPT-5.5 ve Kimi K2.7 dahil olmak üzere diğer modellerin de benzer yetenekler sergilediğini ortaya koydu. Hatta Claude Haiku 4.5 gibi daha küçük modeller bile testler sırasında aynı istismar sonuçlarını üretti.

Yeni Güvenlik Sınıflandırıcılarının Uygulanması ve "Yanlış Pozitif" Dengesi

Sorunu gidermek için Anthropic, Amazon raporunda tanımlanan belirli istismar tekniğini %99'un üzerinde bir doğrulukla engelleyecek şekilde tasarlanmış, geliştirilmiş bir güvenlik sınıflandırıcısı devreye aldı. Bir kullanıcının isteği bu yeni savunma katmanını tetiklediğinde, kullanıcıya bir bildirim gönderiliyor ve sorgu otomatik olarak daha eski ve daha kısıtlı olan Claude Opus 4.8 modeline yönlendiriliyor.

Ancak bu gelişmiş güvenlik, işlevsel bir maliyetle birlikte geliyor. Anthropic, yeni sınıflandırıcının standart kodlama ve hata ayıklama görevleri sırasında zararsız istekleri daha sık işaretleme eğiliminde olduğunu kabul etti. Bu "güvenlik marjı", sağlamlık ile kullanılabilirlik arasında bir gerilim yaratıyor; bu durum, tehlikeli çıktıları önlemenin genellikle meşru geliştirici sorgularının daha fazla "reddedilmesine" yol açtığı sınır modellerin (frontier models) dağıtımında tekrarlanan bir zorluktur.

Endüstri Standartları ve Hükümet Denetimi İçin Bir Hamle

Fable 5 olayı, Anthropic'in resmileşmiş, endüstri çapında güvenlik standartları için yaptığı hamleyi hızlandırdı. Şirket şu anda, jailbreak'leri derecelendirmek ve standartlaştırılmış karşı önlemleri tetiklemek için bir çerçeve oluşturmak amacıyla "Glasswing" programı aracılığıyla Amazon, Microsoft ve Google ile iş birliği yapıyor. Bunu güçlendirmek için Anthropic, güvenlik araştırmacılarını siber bağlantılı jailbreak'leri bildirmeye teşvik etmek amacıyla özel bir 7/24 izleme ekibi ve yeni bir HackerOne programı başlattı.

Ayrıca Anthropic, tüm sınır modeli geliştiricilerine eşit şekilde uygulanan "güçlü düzenlemeler" için savunuculuk yapıyor. Hükümet ortaklarına güvenlik açısından hassas modellere sürüm öncesi erişim sunarak ve ortak araştırmalar için önemli miktarda işlem gücü (compute) taahhüt ederek Anthropic, kendisini şeffaf ve hükümetle uyumlu yapay zeka denetimine yönelik harekette bir lider olarak konumlandırıyor.

Önemli Çıkarımlar

  • Yeniden Sağlanan Erişim: Fable 5; Claude.ai, Claude Code ve Claude Cowork üzerinden tekrar erişilebilir durumda; Pro, Max ve Team planları 7 Temmuz'a kadar erişim sağlayabilecek.
  • Yeni Savunma Katmanları: Anthropic, tanımlanan istismar tekniğinin %99'unu engelleyen bir güvenlik sınıflandırıcısı uyguladı, ancak bu durum kodlama iş akışlarında yanlış pozitifleri artırabilir.
  • İş Birliğine Dayalı Güvenlik: Anthropic, sınır modeli jailbreak'lerini izlemek ve bunlara yanıt vermek için ortak endüstri standartları oluşturmak amacıyla büyük teknoloji oyuncuları ve ABD hükümeti ile ortaklık kuruyor.