Anthropic khôi phục quyền truy cập toàn cầu vào Fable 5 sau lệnh cấm của Chính phủ Hoa Kỳ

Anthropic đã chính thức tiếp tục triển khai Fable 5 trên toàn thế giới, mô hình AI mạnh mẽ nhất của hãng, sau hai tuần tạm dừng theo lệnh của chính phủ Hoa Kỳ. Lệnh cấm được đưa ra sau một phát hiện bảo mật nghiêm trọng liên quan đến lỗ hổng jailbreak, cho phép mô hình vượt qua các rào cản an toàn đã được thiết lập.

Lỗ hổng: Từ nghiên cứu phòng thủ đến rủi ro bảo mật

Sự hạn chế đột ngột này bắt nguồn từ một báo cáo bảo mật của các nhà nghiên cứu tại Amazon, những người đã vượt qua thành công các giao thức an toàn của Fable 5. Các nhà nghiên cứu phát hiện ra rằng mô hình có thể xác định các lỗ hổng phần mềm cụ thể và trong một trường hợp đáng chú ý, đã tạo ra mã thực thi để khai thác chúng.

Mặc dù Anthropic mô tả đây là một "trường hợp ngoại lệ" (edge case) liên quan đến các công việc an ninh mạng phòng thủ thông thường, nhưng khả năng bị lạm dụng đã đòi hỏi một cuộc điều tra chung giữa công ty và các cơ quan chính phủ Hoa Kỳ. Điều thú vị là cuộc điều tra cho thấy khả năng xác định các lỗi này không chỉ riêng Fable 5 mới có; các mô hình khác, bao gồm Claude Opus 4.8, GPT-5.5 và Kimi K2.7, cũng cho thấy khả năng tương tự. Ngay cả các mô hình nhỏ hơn như Claude Haiku 4.5 cũng tạo ra kết quả khai thác tương tự trong quá trình thử nghiệm.

Triển khai các bộ phân loại an toàn mới và sự đánh đổi "dương tính giả"

Để khắc phục vấn đề này, Anthropic đã triển khai một bộ phân loại an toàn cải tiến được thiết kế để chặn kỹ thuật khai thác cụ thể được xác định trong báo cáo của Amazon với độ chính xác trên 99%. Khi yêu cầu của người dùng kích hoạt lớp phòng thủ mới này, họ sẽ nhận được thông báo và truy vấn sẽ tự động được chuyển hướng đến mô hình Claude Opus 4.8 cũ hơn và bị hạn chế hơn.

Tuy nhiên, việc tăng cường bảo mật này đi kèm với một cái giá về mặt chức năng. Anthropic thừa nhận rằng bộ phân loại mới có xu hướng gắn cờ các yêu cầu vô hại thường xuyên hơn trong các tác vụ lập trình và gỡ lỗi tiêu chuẩn. "Biên độ an toàn" này tạo ra sự căng thẳng giữa tính mạnh mẽ và tính khả dụng—một thách thức lặp đi lặp lại trong việc triển khai các mô hình tiên phong (frontier models), nơi việc ngăn chặn các đầu ra nguy hiểm thường dẫn đến việc gia tăng các "lời từ chối" đối với các truy vấn hợp lệ của nhà phát triển.

Thúc đẩy các tiêu chuẩn ngành và sự giám sát của chính phủ

Sự cố Fable 5 đã đẩy nhanh nỗ lực của Anthropic trong việc thúc đẩy các tiêu chuẩn an toàn chính thức trên toàn ngành. Công ty hiện đang hợp tác với Amazon, Microsoft và Google thông qua chương trình "Glasswing" để xây dựng một khuôn khổ đánh giá các vụ jailbreak và kích hoạt các biện pháp đối phó tiêu chuẩn. Để củng cố điều này, Anthropic đã thành lập một đội ngũ giám sát chuyên trách 24/7 và một chương trình HackerOne mới nhằm khuyến khích các nhà nghiên cứu bảo mật báo cáo các vụ jailbreak liên quan đến an ninh mạng.

Hơn nữa, Anthropic đang ủng hộ việc áp dụng "quy định nghiêm ngặt" một cách bình đẳng cho tất cả các nhà phát triển mô hình tiên phong. Bằng cách cung cấp cho các đối tác chính phủ quyền truy cập trước vào các mô hình nhạy cảm về bảo mật và cam kết cung cấp tài nguyên tính toán đáng kể cho nghiên cứu chung, Anthropic đang định vị mình là người dẫn đầu trong phong trào hướng tới sự giám sát AI minh bạch và phù hợp với chính phủ.

Các điểm chính cần lưu ý

  • Khôi phục quyền truy cập: Fable 5 đã khả dụng trở lại thông qua Claude.ai, Claude Code và Claude Cowork, với các gói Pro, Max và Team sẽ được quyền truy cập cho đến hết ngày 7 tháng 7.
  • Các lớp phòng thủ mới: Anthropic đã triển khai một bộ phân loại an toàn giúp chặn 99% kỹ thuật khai thác đã được xác định, mặc dù nó có thể làm tăng tỷ lệ dương tính giả trong các quy trình làm việc lập trình.
  • Bảo mật hợp tác: Anthropic đang hợp tác với các ông lớn công nghệ và chính phủ Hoa Kỳ để thiết lập các tiêu chuẩn chung của ngành nhằm giám sát và ứng phó với các vụ jailbreak mô hình tiên phong.