AI จะสามารถต้านทานโฆษณาชวนเชื่อของรัสเซียได้หรือไม่? เกณฑ์มาตรฐานใหม่เผยให้เห็นผู้ชนะ

📅4 hours ago⏱3 min read

In this article

AI จะสามารถต้านทานโฆษณาชวนเชื่อของรัสเซียได้หรือไม่? ผลการทดสอบมาตรฐานใหม่เผยผู้ชนะ

ในขณะที่แคมเปญข้อมูลบิดเบือนมีความซับซ้อนมากขึ้นเรื่อยๆ คำถามสำคัญจึงเกิดขึ้นว่า: โมเดลภาษาขนาดใหญ่ (LLMs) จะสามารถแยกแยะข้อเท็จจริงออกจากความพยายามบิดเบือนโดยรัฐได้หรือไม่? ผลการศึกษาล่าสุดโดยสถาบันภาษาเอสโตเนีย (Institute of the Estonian Language) ได้ให้คำตอบที่เข้มงวด โดยการทดสอบความสามารถในการต้านทานของโมเดล AI ที่แตกต่างกันถึง 60 โมเดล ต่อโฆษณาชวนเชื่อของรัสเซียที่มุ่งเป้าโดยเฉพาะ

ระเบียบวิธีวิจัย: การทดสอบความสามารถในการต้านทานโดยไม่ใช้การเข้าถึงเว็บ

เพื่อให้แน่ใจว่าผลลัพธ์ที่ได้เป็นการวัดความสามารถในการใช้เหตุผลที่มีอยู่ภายในตัวโมเดลเอง มากกว่าความสามารถในการท่องเว็บแบบเรียลไทม์ นักวิจัยจึงดำเนินการทดสอบโดยไม่มีการเข้าถึงเครื่องมือค้นหาหรือเครื่องมือภายนอก การทดสอบมาตรฐานนี้ใช้คำถาม 75 ข้อใน 3 ภาษา โดยมุ่งเป้าไปที่เรื่องเล่าโฆษณาชวนเชื่อที่แตกต่างกัน 14 รูปแบบ เรื่องเล่าเหล่านี้ถูกนำเสนอด้วยระดับความยากที่หลากหลาย ตั้งแต่การใช้ถ้อยคำที่เป็นกลางไปจนถึงคำสั่ง (prompts) ที่มีความลำเอียงและบิดเบือนอย่างสูง

กระบวนการประเมินผลมีความเป็นระบบสูง โดยแต่ละคำตอบจะถูกให้คะแนนตั้งแต่ 1 ถึง 5 คะแนน ซึ่งคะแนน 1 หมายถึงโมเดลยอมจำนนและพูดซ้ำตามประเด็นของรัสเซีย เพื่อรักษาความแม่นยำในระดับสูง จึงได้ใช้ Claude Opus 4.5 ที่ผ่านการปรับเทียบ (calibrated) มาทำหน้าที่เป็นผู้ตัดสิน และผลลัพธ์ยังได้รับการตรวจสอบความถูกต้องเพิ่มเติมโดยผู้เชี่ยวชาญด้านข้อมูลบิดเบือนจากองค์กร Propastop

Anthropic เป็นผู้นำในการป้องกันข้อมูลบิดเบือน

ผลลัพธ์แสดงให้เห็นถึงช่องว่างของประสิทธิภาพที่สำคัญระหว่างผู้ให้บริการ AI รายต่างๆ ตระกูล Claude ของ Anthropic ก้าวขึ้นมาเป็นผู้นำในอุตสาหกรรมในการต้านทานข้อมูลบิดเบือน โดยเฉพาะอย่างยิ่ง Claude Fable 5 (ซึ่งปัจจุบันยังจำกัดการใช้งานอยู่นอกสหรัฐอเมริกา) ทำคะแนนสูงสุดได้อย่างโดดเด่นที่ 95.2 ตามมาติดๆ ด้วย Claude Opus 4.7 ซึ่งเป็นการตอกย้ำตำแหน่งของ Anthropic ในฐานะมาตรฐานระดับทอง (gold standard) ในปัจจุบันสำหรับความปลอดภัยและความถูกต้องของข้อเท็จจริง

ผู้ที่มีผลงานโดดเด่นรายอื่นๆ ได้แก่ Nemotron 3 ของ Nvidia และ Qwen 3.6 Plus ของ Alibaba ซึ่งทั้งคู่แสดงให้เห็นถึงความสามารถที่แข็งแกร่งในการระบุและปฏิเสธเรื่องเล่าที่บิดเบือน

ความเปราะบางของ Mistral และเดิมพันสำหรับ AI ของยุโรป

ในขณะที่โมเดลจากสหรัฐฯ และจีนแสดงให้เห็นถึงความแข็งแกร่ง แต่ผลลัพธ์กลับเป็นความพ่ายแพ้สำหรับ Mistral ซึ่งเป็นยักษ์ใหญ่ด้าน AI ของฝรั่งเศส โมเดลของ Mistral รวมถึง Medium 3.5 ที่เพิ่งเปิดตัวไป ตกอยู่ในกลุ่มหนึ่งในสามล่างสุดของการทดสอบมาตรฐานนี้ ข้อค้นพบเหล่านี้สอดคล้องกับการศึกษาของ Newsguard ก่อนหน้านี้ที่บันทึกอัตราการให้ข้อมูลผิดพลาดของ Mistral ไว้ที่ 36.67 เปอร์เซ็นต์

This vulnerability is particularly significant given Mistral's strategic position. As the primary European alternative to US-based and Chinese AI providers, the company is currently in the midst of negotiating a €3 billion funding round at a €20 billion valuation. For a company positioning itself as a reliable sovereign AI provider, the inability to consistently deflect propaganda presents a significant reputational and technical challenge.

Why This Matters for the AI Landscape

The stakes of this benchmark extend beyond simple accuracy scores. Russian disinformation networks, such as "Pravda," are actively working to flood AI training sets with millions of manufactured articles to "poison" the logic of future models. With OpenAI already having identified and shut down Russian campaigns using ChatGPT to influence German federal elections, the battle for the integrity of LLMs is becoming a frontline issue in global information security.

Key Takeaways

Anthropic Dominance: Claude models, particularly Claude Fable 5, demonstrated superior resistance to propaganda compared to all other tested models.
Mistral Under Pressure: Despite its high valuation and European importance, Mistral models struggled significantly with misinformation, trailing behind US and Chinese competitors.
The Training Threat: The benchmark highlights the urgent need for robust defenses as state-sponsored actors actively attempt to manipulate LLM outputs through massive disinformation campaigns.

AI จะสามารถต้านทานโฆษณาชวนเชื่อของรัสเซียได้หรือไม่? เกณฑ์มาตรฐานใหม่เผยให้เห็นผู้ชนะ

AI จะสามารถต้านทานโฆษณาชวนเชื่อของรัสเซียได้หรือไม่? ผลการทดสอบมาตรฐานใหม่เผยผู้ชนะ

ระเบียบวิธีวิจัย: การทดสอบความสามารถในการต้านทานโดยไม่ใช้การเข้าถึงเว็บ

Anthropic เป็นผู้นำในการป้องกันข้อมูลบิดเบือน

ความเปราะบางของ Mistral และเดิมพันสำหรับ AI ของยุโรป

Why This Matters for the AI Landscape

Key Takeaways

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

รัฐบาลสหรัฐฯ เรียกคืนโมเดล AI

AI Red Teaming: การรักษาความปลอดภัยให้กับโมเดลภาษาขนาดใหญ่จากความเสี่ยงจากการโจมตี

อาจระดมทุนได้ 9 ล้านดอลลาร์ เพื่อแก้ปัญหาอาการหลอนของ LLM ด้วยวิศวกรรมที่มีความแม่นยำสูง