Chính phủ Hoa Kỳ đối đầu Anthropic: Yêu cầu bất khả thi về các LLM không thể bị hack

Một sự rạn nứt ngày càng lớn đã xuất hiện giữa chính phủ Hoa Kỳ và Anthropic sau khi mô hình Fable 5 được phát hành, làm dấy lên cuộc tranh luận về an toàn AI và giám sát quản lý. Khi các quan chức cáo buộc phòng thí nghiệm AI này lách các sắc lệnh hành pháp, một căng thẳng kỹ thuật sâu sắc hơn đang lộ diện: yêu cầu của chính phủ về các mô hình tiên phong "không thể bị hack".

Xung đột về Fable 5 và các Chỉ thị An ninh mạng

Căng thẳng bắt nguồn từ quyết định của Anthropic trong việc phát hành mô hình mới nhất của mình, Fable 5, trước khi một cơ quan kiểm soát được chỉ định của chính phủ — theo yêu cầu của một sắc lệnh hành pháp về an ninh mạng gần đây của chính quyền Trump — đi vào hoạt động đầy đủ. Mặc dù sắc lệnh kêu gọi sự giám sát tự nguyện, các quan chức chính phủ tuyên bố rằng Anthropic đã phớt lờ tinh thần của chỉ thị, dẫn đến những cáo buộc rằng công ty này là một "tác nhân xấu" (bad actor).

Các cuộc thảo luận hiện tại liên quan đến Bộ Thương mại, CIA và cố vấn khoa học Michael Kratsios đã làm nổi bật một lỗ hổng giao tiếp khổng lồ. Các quan chức bày tỏ lo ngại rằng Anthropic vẫn tiếp tục tiến hành dù biết rằng rủi ro "jailbreak" (vượt rào bảo mật) đang tồn tại — một thông tin được cho là do Amazon và các đối tác khác trong ngành công nghệ cung cấp. Tuy nhiên, sự ma sát này dường như liên quan đến thời điểm quản lý cũng nhiều như vấn đề an ninh kỹ thuật.

Thực tế kỹ thuật: Liệu LLM có bao giờ không thể bị hack?

Trọng tâm trong sự chỉ trích của chính phủ — rằng Anthropic đã "đi sai hướng" khi phớt lờ các nguy cơ jailbreak tiềm ẩn — đã bỏ qua một thực tế cơ bản của kiến trúc Mô hình Ngôn ngữ Lớn (LLM). Trong ngành công nghiệp AI, sự đồng thuận chung là bảo mật tuyệt đối hiện tại là điều bất khả thi. Ngay cả OpenAI cũng đã thừa nhận rằng các lỗ hổng như prompt injection (tấn công chèn câu lệnh) có thể sẽ không bao giờ được giải quyết triệt để.

CEO của Anthropic, Dario Amodei, trước đó đã lưu ý rằng mặc dù việc jailbreak trong các lĩnh vực nhạy cảm như sinh học hoặc công nghệ có thể gây ra hậu quả "sống còn", nhưng ngành công nghiệp vẫn đang phải vật lộn với cách giảm thiểu những rủi ro này. Bằng cách yêu cầu các mô hình về cơ bản phải không thể bị hack trước khi xuất khẩu quốc tế, chính phủ Hoa Kỳ có thể đang tạo ra một tiền lệ kìm hãm sự đổi mới, vì không có mô hình tiên phong nào (bao gồm cả GPT-5.5 hay Kimi 2.7) sở hữu một lá chắn bảo mật hoàn hảo.

Phản ứng dữ dội từ ngành công nghiệp và cuộc tranh luận về Kiểm soát Xuất khẩu

Trước tình hình căng thẳng leo thang, hơn 100 chuyên gia và lãnh đạo an ninh mạng—bao gồm các chuyên gia kỳ cựu trong ngành như Alex Stamos và Rachel Tobac—đã gửi một bức thư ngỏ tới Bộ trưởng Thương mại Lutnick và Giám đốc An ninh mạng Quốc gia Cairncross. Họ đang kêu gọi dỡ bỏ các biện pháp kiểm soát xuất khẩu đối với các mô hình Fable và Mythos của Anthropic.

Các chuyên gia lập luận rằng mặc dù Fable có khả năng cao trong việc xác định các lỗ hổng phần mềm, nhưng nó không nguy hiểm một cách khác biệt so với các mô hình khác như Opus hay Sonnet. Quan trọng hơn, họ cảnh báo rằng các biện pháp kiểm soát xuất khẩu nghiêm ngặt thực chất đang gây bất lợi cho các bên phòng thủ phương Tây. Bằng cách hạn chế quyền truy cập vào các mô hình hàng đầu của Hoa Kỳ, chính phủ có thể vô tình tạo lợi thế cho các mô hình open-weight của Trung Quốc, vốn được cho là chỉ tụt hậu vài tháng so với các mô hình tiên phong hàng đầu của Mỹ.

Các điểm chính cần lưu ý