Anthropic Mengembalikan Akses Global kepada Fable 5 Selepas Larangan Kerajaan AS

Anthropic telah secara rasmi menyambung semula pelancaran global Fable 5, model AI paling berkuasanya, susulan penggantungan selama dua minggu yang diarahkan oleh kerajaan AS. Larangan tersebut dicetuskan oleh penemuan keselamatan kritikal yang melibatkan kerentanan jailbreak yang membolehkan model tersebut memintas benteng keselamatan yang telah ditetapkan.

Kerentanan: Daripada Penyelidikan Defensif kepada Risiko Keselamatan

Sekatan mengejut itu berpunca daripada laporan keselamatan oleh penyelidik Amazon yang berjaya memintas protokol keselamatan Fable 5. Penyelidik mendapati bahawa model tersebut boleh mengenal pasti kerentanan perisian tertentu dan, dalam satu contoh yang ketara, menjana kod berfungsi untuk mengeksploitasinya.

Walaupun Anthropic menyifatkan perkara ini sebagai "kes terpencil" (edge case) yang melibatkan kerja keselamatan siber defensif rutin, potensi penyalahgunaan memerlukan siasatan bersama antara syarikat tersebut dan agensi kerajaan AS. Menariknya, siasatan mendedahkan bahawa keupayaan untuk mengenal pasti kelemahan ini bukan hanya unik kepada Fable 5; model lain, termasuk Claude Opus 4.8, GPT-5.5, dan Kimi K2.7, menunjukkan keupayaan yang serupa. Malah model yang lebih kecil seperti Claude Haiku 4.5 turut menghasilkan keputusan eksploitasi yang sama semasa ujian dijalankan.

Melaksanakan Pengelasan Keselamatan Baharu dan Imbangan "Positif Palsu"

Untuk menangani isu tersebut, Anthropic telah melancarkan pengelasan keselamatan (safety classifier) yang dipertingkatkan, direka untuk menyekat teknik eksploitasi khusus yang dikenal pasti dalam laporan Amazon dengan ketepatan melebihi 99%. Apabila permintaan pengguna mencetuskan lapisan pertahanan baharu ini, mereka akan menerima pemberitahuan, dan pertanyaan tersebut akan dihalakan semula secara automatik ke model Claude Opus 4.8 yang lebih lama dan lebih terhad.

Walau bagaimanapun, peningkatan keselamatan ini datang dengan kos fungsian. Anthropic mengakui bahawa pengelasan baharu tersebut cenderung untuk menandakan permintaan yang tidak berbahaya dengan lebih kerap semasa tugas pengekodan dan penyahpepijatan (debugging) standard. "Margin keselamatan" ini mewujudkan ketegangan antara keteguhan dan kebolehgunaan—satu cabaran berulang dalam penggunaan model perintis (frontier model) di mana pencegahan output berbahaya sering membawa kepada peningkatan "penolakan" terhadap pertanyaan pembangun yang sah.

Desakan untuk Standard Industri dan Pengawasan Kerajaan

Insiden Fable 5 telah mempercepatkan desakan Anthropic untuk standard keselamatan yang diformalkan di seluruh industri. Syarikat tersebut kini sedang bekerjasama dengan Amazon, Microsoft, dan Google melalui program "Glasswing" untuk membina rangka kerja bagi menilai jailbreak dan mencetuskan langkah balas yang tersandard. Bagi memperkukuh perkara ini, Anthropic telah melancarkan pasukan pemantauan 24/7 yang berdedikasi dan program HackerOne baharu untuk memberi insentif kepada penyelidik keselamatan bagi melaporkan jailbreak berkaitan siber.

Selain itu, Anthropic menyokong "peraturan yang kuat" yang dikenakan secara saksama kepada semua pembangun model perintis. Dengan menawarkan akses pra-pelancaran kepada model yang sensitif dari segi keselamatan kepada rakan kongsi kerajaan dan memperuntukkan kuasa pengkomputeran (compute) yang besar untuk penyelidikan bersama, Anthropic meletakkan dirinya sebagai peneraju dalam gerakan ke arah pengawasan AI yang telus dan selaras dengan kerajaan.

Ringkasan Utama

  • Akses Dipulihkan: Fable 5 kini tersedia semula melalui Claude.ai, Claude Code, dan Claude Cowork, dengan pelan Pro, Max, dan Team menerima akses sehingga 7 Julai.
  • Lapisan Pertahanan Baharu: Anthropic melaksanakan pengelasan keselamatan yang menyekat 99% teknik eksploitasi yang dikenal pasti, walaupun ia mungkin meningkatkan positif palsu dalam aliran kerja pengekodan.
  • Keselamatan Kolaboratif: Anthropic sedang bekerjasama dengan pemain teknologi utama dan kerajaan AS untuk mewujudkan standard industri bersama bagi memantau dan bertindak balas terhadap jailbreak model perintis.