Anthropic Memulihkan Akses Global ke Fable 5 Setelah Larangan Pemerintah AS
Anthropic telah secara resmi melanjutkan peluncuran global Fable 5, model AI terkuatnya, menyusul penangguhan selama dua minggu yang diinstruksikan oleh pemerintah AS. Larangan tersebut dipicu oleh temuan keamanan kritis yang melibatkan kerentanan jailbreak yang memungkinkan model tersebut melewati batasan keamanan (safety guardrails) yang telah ditetapkan.
Kerentanan: Dari Penelitian Defensif Menjadi Risiko Keamanan
Pembatasan mendadak ini bermula dari laporan keamanan oleh peneliti Amazon yang berhasil melewati protokol keamanan Fable 5. Para peneliti menemukan bahwa model tersebut dapat mengidentifikasi kerentanan perangkat lunak tertentu dan, dalam satu kasus yang menonjol, menghasilkan kode fungsional untuk mengeksploitasinya.
Meskipun Anthropic mengategorikan hal ini sebagai "kasus ekstrem" (edge case) yang melibatkan pekerjaan keamanan siber defensif rutin, potensi penyalahgunaan mengharuskan adanya investigasi bersama antara perusahaan dan lembaga pemerintah AS. Menariknya, investigasi tersebut mengungkapkan bahwa kemampuan untuk mengidentifikasi celah ini tidak hanya dimiliki oleh Fable 5; model lain, termasuk Claude Opus 4.8, GPT-5.5, dan Kimi K2.7, menunjukkan kemampuan serupa. Bahkan model yang lebih kecil seperti Claude Haiku 4.5 menghasilkan hasil eksploitasi yang sama selama pengujian.
Mengimplementasikan Klasifikasi Keamanan Baru dan Pertukaran "False Positive"
Untuk mengatasi masalah tersebut, Anthropic telah menerapkan klasifikasi keamanan yang ditingkatkan, yang dirancang untuk memblokir teknik eksploitasi spesifik yang diidentifikasi dalam laporan Amazon dengan akurasi lebih dari 99%. Ketika permintaan pengguna memicu lapisan pertahanan baru ini, mereka akan menerima notifikasi, dan kueri tersebut secara otomatis dialihkan ke model Claude Opus 4.8 yang lebih lama dan lebih terbatas.
Namun, peningkatan keamanan ini membawa konsekuensi fungsional. Anthropic mengakui bahwa klasifikasi baru tersebut cenderung menandai permintaan yang tidak berbahaya lebih sering selama tugas pengodean dan debugging standar. "Margin keamanan" ini menciptakan ketegangan antara ketangguhan dan kegunaan—sebuah tantangan berulang dalam penerapan model frontier di mana pencegahan output berbahaya sering kali menyebabkan peningkatan "penolakan" (refusals) terhadap kueri pengembang yang sah.
Dorongan untuk Standar Industri dan Pengawasan Pemerintah
Insiden Fable 5 telah mempercepat dorongan Anthropic untuk standar keamanan formal di seluruh industri. Perusahaan saat ini sedang berkolaborasi dengan Amazon, Microsoft, dan Google melalui program "Glasswing" untuk membangun kerangka kerja guna menilai jailbreak dan memicu langkah-langkah penanggulangan yang terstandarisasi. Untuk memperkuat hal ini, Anthropic telah meluncurkan tim pemantauan khusus 24/7 dan program HackerOne baru untuk memberi insentif kepada peneliti keamanan agar melaporkan jailbreak terkait siber.
Selain itu, Anthropic mengadvokasi "regulasi kuat" yang diterapkan secara setara kepada semua pengembang model frontier. Dengan menawarkan akses pra-rilis ke model yang sensitif terhadap keamanan kepada mitra pemerintah dan berkomitmen menyediakan komputasi yang signifikan untuk penelitian bersama, Anthropic memposisikan dirinya sebagai pemimpin dalam gerakan menuju pengawasan AI yang transparan dan selaras dengan pemerintah.
Poin-Poin Penting
- Akses yang Dipulihkan: Fable 5 tersedia kembali melalui Claude.ai, Claude Code, dan Claude Cowork, dengan paket Pro, Max, dan Team menerima akses hingga 7 Juli.
- Lapisan Pertahanan Baru: Anthropic mengimplementasikan klasifikasi keamanan yang memblokir 99% teknik eksploitasi yang teridentifikasi, meskipun hal ini dapat meningkatkan false positive dalam alur kerja pengodean.
- Keamanan Kolaboratif: Anthropic bermitra dengan pemain teknologi besar dan pemerintah AS untuk menetapkan standar industri bersama dalam memantau dan menanggapi jailbreak model frontier.
