Чи може ШІ протистояти російській пропаганді? Новий бенчмарк визначає переможців

📅3 hours ago⏱3 min read

In this article

Чи може ШІ протистояти російській пропаганді? Новий бенчмарк визначає лідерів

Оскільки кампанії з дезінформації стають дедалі складнішими, постає критичне питання: чи можуть великі мовні моделі (LLM) відрізнити факти від спонсорованих державою маніпуляцій? Нещодавнє дослідження Інституту естонської мови надало ґрунтовну відповідь, протестувавши стійкість 60 різних моделей ШІ до цілеспрямованої російської пропаганди.

Методологія: тестування стійкості без доступу до мережі

Щоб переконатися, що результати вимірюють притаманні моделям здатності до міркування, а не їхню здатність переглядати вебсторінки в реальному часі, дослідники проводили тести без доступу до пошукових систем чи зовнішніх інструментів. У бенчмарку використовували 75 запитань трьома мовами, що були спрямовані на 14 окремих пропагандистських наративів. Ці наративи були представлені з різним рівнем складності: від нейтральних формулювань до вкрай упереджених і маніпулятивних підказок.

Процес оцінювання був чітко структурованим. Кожна відповідь оцінювалася за шкалою від 1 до 5, де 1 означає, що модель піддалася впливу та повторила російські тези. Для забезпечення високої точності суддею виступала калібрована модель Claude Opus 4.5, а результати були додатково підтверджені експертами з дезінформації з організації Propastop.

Anthropic лідирує у захисті від дезінформації

Результати підкреслюють значну різницю в продуктивності між різними постачальниками ШІ. Сімейство Claude від Anthropic стало лідером галузі у протистоянні дезінформації. Зокрема, Claude Fable 5 (яка наразі обмежена за межами США) здобула вражаючий найвищий бал — 95,2. Слід за нею йде Claude Opus 4.7, що зміцнює позиції Anthropic як сучасного золотого стандарту безпеки та фактичної достовірності.

Серед інших помітних результатів були Nvidia Nemotron 3 та Alibaba Qwen 3.6 Plus, обидві моделі продемонстрували високу здатність ідентифікувати та відхиляти маніпулятивні наративи.

Вразливість Mistral та ставки для європейського ШІ

У той час як американські та китайські моделі продемонстрували силу, результати стали ударом для Mistral, французького гіганта у сфері ШІ. Моделі Mistral, включаючи нещодавню Medium 3.5, потрапили до нижньої третини бенчмарку. Ці висновки перегукуються з попереднім дослідженням Newsguard, яке зафіксувало 36,67 відсотка дезінформації у моделях Mistral.

Ця вразливість є особливо значущою, враховуючи стратегічне становище Mistral. Як основна європейська альтернатива американським та китайським постачальникам ШІ, компанія наразі перебуває в процесі переговорів щодо раунду фінансування на суму 3 мільярди євро при оцінці у 20 мільярдів євро. Для компанії, яка позиціонує себе як надійний постачальник суверенного ШІ, нездатність стабільно відбивати пропаганду становить серйозний репутаційний та технічний виклик.

Чому це важливо для ландшафту ШІ

Ставки цього бенчмарку виходять за межі простих показників точності. Російські дезінформаційні мережі, такі як «Правда», активно працюють над тим, щоб наповнити набори даних для навчання ШІ мільйонами сфабрикованих статей, щоб «отруїти» логіку майбутніх моделей. Оскільки OpenAI вже виявила та припинила російські кампанії з використанням ChatGPT для впливу на федеральні вибори в Німеччині, боротьба за цілісність LLM стає фронтовою проблемою у сфері глобальної інформаційної безпеки.

Основні висновки

Домінування Anthropic: моделі Claude, зокрема Claude Fable 5, продемонстрували вищу стійкість до пропаганди порівняно з усіма іншими протестованими моделями.
Mistral під тиском: попри високу оцінку та європейську важливість, моделі Mistral відчули значні труднощі з дезінформацією, відстаючи від американських та китайських конкурентів.
Загроза навчанню: бенчмарк підкреслює нагальну потребу в надійних методах захисту, оскільки державні актори активно намагаються маніпулювати результатами LLM за допомогою масштабних дезінформаційних кампаній.

Чи може ШІ протистояти російській пропаганді? Новий бенчмарк визначає переможців

Чи може ШІ протистояти російській пропаганді? Новий бенчмарк визначає лідерів

Методологія: тестування стійкості без доступу до мережі

Anthropic лідирує у захисті від дезінформації

Вразливість Mistral та ставки для європейського ШІ

Чому це важливо для ландшафту ШІ

Основні висновки

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

Уряд США відкликав модель ШІ

AI Red Teaming: Securing Large Language Models Against Adversarial Risks

Ймовірно, залучає 9 млн доларів для боротьби з галюцинаціями LLM за допомогою прецизійної інженерії