Các chuyên gia an ninh mạng phản đối lệnh cấm của Hoa Kỳ đối với các mô hình Fable và Mythos của Anthropic

Một liên minh gồm 76 chuyên gia kỳ cựu trong lĩnh vực an ninh mạng đang gióng lên hồi chuông cảnh báo chống lại lệnh kiểm soát xuất khẩu gần đây của chính phủ Hoa Kỳ nhắm vào các mô hình AI tiên tiến nhất của Anthropic. Nhóm này lập luận rằng bằng cách hạn chế quyền truy cập vào các công cụ này, chính phủ đang vô tình tước đi vũ khí của những người bảo vệ kỹ thuật số trong khi các đối thủ vẫn tiếp tục tiến bộ.

Xung đột: An ninh quốc gia đối đầu với Khả năng phòng thủ

Căng thẳng bắt đầu khi chính phủ Hoa Kỳ ban hành lệnh kiểm soát xuất khẩu đối với các mô hình FableMythos của Anthropic, với lý do là các mối lo ngại về an ninh quốc gia chưa được tiết lộ. Để tuân thủ lệnh này, Anthropic đã tạm dừng quyền truy cập trên toàn thế giới vào các mô hình này.

Mô hình Mythos ban đầu được thiết kế với khả năng phát hiện lỗ hổng ở cấp độ cao đến mức Anthropic ban đầu chỉ giới hạn quyền truy cập cho một nhóm chọn lọc gồm khoảng 150 tổ chức tại 15 quốc gia. Phiên bản dành cho công chúng, Fable, được dự định sẽ bao gồm các rào chắn (guardrails) nghiêm ngặt để ngăn chặn việc lạm dụng trong các lĩnh vực sinh học, hóa học và an ninh mạng. Tuy nhiên, sự can thiệp của chính phủ đã thực sự ngăn cản việc triển khai các công cụ mạnh mẽ này cho chính những người có nhiệm vụ bảo vệ internet.

Tranh cãi về "Jailbreak" và báo cáo của Amazon

Anthropic cho rằng lệnh của Nhà Trắng có thể bắt nguồn từ những lo ngại liên quan đến "jailbreaking" — các phương pháp được sử dụng để vượt qua các rào chắn an toàn. Mối lo ngại này được cho là bắt nguồn từ một báo cáo nghiên cứu không công khai của các nhà nghiên cứu tại Amazon.

Báo cáo này gợi ý rằng người dùng có thể vượt qua các hạn chế bảo mật của Fable để tiếp cận các khả năng ở cấp độ Mythos. Tuy nhiên, các chuyên gia an ninh mạng, bao gồm cả Katie Moussouris (người sáng lập Luta Security), lập luận rằng đây là một sự hiểu lầm cơ bản về tiện ích của AI. Moussouris cho rằng hành vi "jailbreak" được mô tả thực chất chỉ là mô hình đang thực hiện chức năng dự kiến của nó: sửa lỗi mã nguồn mở chứa các lỗ hổng đã biết.

Theo Moussouris, việc yêu cầu AI sửa một lỗi, giải thích bản vá và viết một bài kiểm tra không phải là một vụ vi phạm an ninh; đó chính là "vòng lặp tìm kiếm, sửa lỗi và kiểm tra" (find, fix, and test loop) định nghĩa nên an ninh phòng thủ hiện đại. Việc cố gắng ngăn chặn các hành vi này sẽ làm tê liệt khả năng bảo vệ phần mềm của mô hình một cách căn bản.

Các bên ký tên có tầm ảnh hưởng lớn và những tác động đến ngành

Thư ngỏ này được sự ủng hộ của những tên tuổi lớn trong cộng đồng bảo mật, bao gồm cựu giám đốc bảo mật của Facebook Alex Stamos, người sáng lập Bugcrowd Casey Ellis, và nhà mật mã học nổi tiếng Jon Callas. Lập luận của họ tập trung vào một sự mất cân bằng nghiêm trọng: nếu những người phòng thủ bị từ chối quyền truy cập vào các LLM tiên tiến trong khi các đối thủ sử dụng các mô hình không bị hạn chế, vị thế an ninh toàn cầu sẽ bị suy yếu.

Các chuyên gia cũng chỉ ra rằng lỗ hổng được nhận thấy ở Fable không chỉ riêng của Anthropic. Bức thư gợi ý rằng những "lỗ hổng" tương tự có thể lặp lại trên GPT-5.5 của OpenAI, các mô hình Claude Opus 4.8Sonnet của chính Anthropic, và thậm chí cả các mô hình quốc tế như Kimi 2.7.

Nhóm này đang kêu gọi một quy trình quản lý dựa trên khoa học và dân chủ, dựa trên các nghiên cứu minh bạch thay vì các lệnh cấm mang tính phản ứng và dàn trải, vốn có thể gây hại nhiều hơn là có lợi.

Các điểm chính cần lưu ý