Liệu AI có thể chống lại tuyên truyền của Nga? Bộ tiêu chuẩn mới tiết lộ những cái tên vượt trội

📅3 hours ago⏱3 min read

In this article

Liệu AI có thể chống lại tuyên truyền Nga? Điểm chuẩn mới tiết lộ những cái tên chiến thắng

Khi các chiến dịch thông tin sai lệch ngày càng trở nên tinh vi, một câu hỏi quan trọng được đặt ra: liệu các mô hình ngôn ngữ lớn (LLM) có thể phân biệt được sự thật với sự thao túng do nhà nước tài trợ hay không? Một nghiên cứu gần đây của Viện Ngôn ngữ Estonia đã đưa ra câu trả lời khắt khe, bằng cách kiểm tra khả năng chống chịu của 60 mô hình AI khác nhau trước các nội dung tuyên truyền có mục tiêu của Nga.

Phương pháp nghiên cứu: Kiểm tra khả năng chống chịu mà không cần truy cập web

Để đảm bảo kết quả đo lường khả năng lập luận vốn có của các mô hình thay vì khả năng duyệt web trực tiếp, các nhà nghiên cứu đã tiến hành thử nghiệm mà không truy cập vào các công cụ tìm kiếm hoặc công cụ bên ngoài. Điểm chuẩn này sử dụng 75 câu hỏi bằng ba ngôn ngữ, nhắm cụ thể vào 14 kịch bản tuyên truyền khác nhau. Các kịch bản này được trình bày với các mức độ khó khác nhau, từ cách diễn đạt trung lập đến các câu lệnh mang tính thiên kiến và thao túng cao.

Quy trình đánh giá được cấu trúc rất chặt chẽ. Mỗi câu trả lời được chấm theo thang điểm từ 1 đến 5, trong đó điểm 1 cho thấy mô hình đã đầu hàng và lặp lại các luận điểm của Nga. Để duy trì độ chính xác cao, một phiên bản Claude Opus 4.5 đã được hiệu chuẩn đóng vai trò là giám khảo, và kết quả sau đó được xác thực thêm bởi các chuyên gia chống thông tin sai lệch từ tổ chức Propastop.

Anthropic dẫn đầu trong việc phòng chống thông tin sai lệch

Kết quả làm nổi bật khoảng cách hiệu suất đáng kể giữa các nhà cung cấp AI khác nhau. Dòng Claude của Anthropic đã nổi lên như một đơn vị dẫn đầu ngành trong việc chống lại thông tin sai lệch. Cụ thể, Claude Fable 5 (hiện đang bị hạn chế bên ngoài Hoa Kỳ) đã đạt được điểm số cao nhất đầy thuyết phục là 95,2. Theo sát sau đó là Claude Opus 4.7, củng cố vị thế của Anthropic như một tiêu chuẩn vàng hiện nay về tính an toàn và tính trung thực của sự thật.

Các mô hình có hiệu suất đáng chú ý khác bao gồm Nemotron 3 của Nvidia và Qwen 3.6 Plus của Alibaba, cả hai đều cho thấy khả năng mạnh mẽ trong việc nhận diện và bác bỏ các kịch bản thao túng.

Lỗ hổng của Mistral và rủi ro đối với AI châu Âu

Trong khi các mô hình của Mỹ và Trung Quốc cho thấy sức mạnh, kết quả này lại là một bước lùi đối với Mistral, "ông lớn" AI của Pháp. Các mô hình của Mistral, bao gồm cả Medium 3.5 gần đây, nằm trong nhóm một phần ba thấp nhất của bảng xếp hạng. Những phát hiện này lặp lại một nghiên cứu trước đó của Newsguard, vốn đã ghi nhận tỷ lệ thông tin sai lệch là 36,67% đối với Mistral.

Lỗ hổng này đặc biệt quan trọng xét đến vị thế chiến lược của Mistral. Là lựa chọn thay thế chính tại Châu Âu đối với các nhà cung cấp AI từ Mỹ và Trung Quốc, công ty hiện đang trong quá trình đàm phán vòng gọi vốn trị giá 3 tỷ euro với mức định giá 20 tỷ euro. Đối với một công ty đang định vị mình là nhà cung cấp AI chủ quyền đáng tin cậy, việc không thể ngăn chặn tuyên truyền một cách nhất quán đặt ra một thách thức lớn về cả danh tiếng lẫn kỹ thuật.

Tại sao điều này lại quan trọng đối với bối cảnh AI

Tầm quan trọng của bản đánh giá này không chỉ dừng lại ở các điểm số độ chính xác đơn thuần. Các mạng lưới thông tin sai lệch của Nga, chẳng hạn như "Pravda", đang tích cực tìm cách làm tràn ngập các tập dữ liệu huấn luyện AI bằng hàng triệu bài báo giả mạo nhằm "làm nhiễm độc" logic của các mô hình trong tương lai. Với việc OpenAI đã xác định và ngăn chặn các chiến dịch của Nga sử dụng ChatGPT để gây ảnh hưởng đến các cuộc bầu cử liên bang tại Đức, cuộc chiến vì tính toàn vẹn của các LLM đang trở thành một vấn đề then chốt trong an ninh thông tin toàn cầu.

Những điểm chính cần lưu ý

Sự thống trị của Anthropic: Các mô hình Claude, đặc biệt là Claude Fable 5, đã cho thấy khả năng chống lại tuyên truyền vượt trội so với tất cả các mô hình khác được thử nghiệm.
Mistral đang chịu áp lực: Bất chấp mức định giá cao và tầm quan trọng tại Châu Âu, các mô hình của Mistral đã gặp khó khăn đáng kể với thông tin sai lệch, tụt hậu so với các đối thủ từ Mỹ và Trung Quốc.
Mối đe dọa đối với việc huấn luyện: Bản đánh giá làm nổi bật nhu cầu cấp thiết về các biện pháp phòng thủ mạnh mẽ khi các tác nhân được nhà nước bảo trợ đang tích cực tìm cách thao túng đầu ra của LLM thông qua các chiến dịch thông tin sai lệch quy mô lớn.

Liệu AI có thể chống lại tuyên truyền của Nga? Bộ tiêu chuẩn mới tiết lộ những cái tên vượt trội

Liệu AI có thể chống lại tuyên truyền Nga? Điểm chuẩn mới tiết lộ những cái tên chiến thắng

Phương pháp nghiên cứu: Kiểm tra khả năng chống chịu mà không cần truy cập web

Anthropic dẫn đầu trong việc phòng chống thông tin sai lệch

Lỗ hổng của Mistral và rủi ro đối với AI châu Âu

Tại sao điều này lại quan trọng đối với bối cảnh AI

Những điểm chính cần lưu ý

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

Chính phủ Hoa Kỳ đã thu hồi một mô hình AI

Red Teaming AI: Bảo mật các Mô hình Ngôn ngữ Lớn trước các Rủi ro Đối kháng

Có khả năng huy động 9 triệu USD để chống lại hiện tượng ảo giác của LLM bằng kỹ thuật chính xác