Чи може ШІ протистояти російській пропаганді? Новий бенчмарк визначає лідерів
Оскільки кампанії з дезінформації стають дедалі складнішими, постає критичне питання: чи можуть великі мовні моделі (LLM) відрізнити факти від спонсорованих державою маніпуляцій? Нещодавнє дослідження Інституту естонської мови надало ґрунтовну відповідь, протестувавши стійкість 60 різних моделей ШІ до цілеспрямованої російської пропаганди.
Методологія: тестування стійкості без доступу до мережі
Щоб переконатися, що результати вимірюють притаманні моделям здатності до міркування, а не їхню здатність переглядати вебсторінки в реальному часі, дослідники проводили тести без доступу до пошукових систем чи зовнішніх інструментів. У бенчмарку використовували 75 запитань трьома мовами, що були спрямовані на 14 окремих пропагандистських наративів. Ці наративи були представлені з різним рівнем складності: від нейтральних формулювань до вкрай упереджених і маніпулятивних підказок.
Процес оцінювання був чітко структурованим. Кожна відповідь оцінювалася за шкалою від 1 до 5, де 1 означає, що модель піддалася впливу та повторила російські тези. Для забезпечення високої точності суддею виступала калібрована модель Claude Opus 4.5, а результати були додатково підтверджені експертами з дезінформації з організації Propastop.
Anthropic лідирує у захисті від дезінформації
Результати підкреслюють значну різницю в продуктивності між різними постачальниками ШІ. Сімейство Claude від Anthropic стало лідером галузі у протистоянні дезінформації. Зокрема, Claude Fable 5 (яка наразі обмежена за межами США) здобула вражаючий найвищий бал — 95,2. Слід за нею йде Claude Opus 4.7, що зміцнює позиції Anthropic як сучасного золотого стандарту безпеки та фактичної достовірності.
Серед інших помітних результатів були Nvidia Nemotron 3 та Alibaba Qwen 3.6 Plus, обидві моделі продемонстрували високу здатність ідентифікувати та відхиляти маніпулятивні наративи.
Вразливість Mistral та ставки для європейського ШІ
У той час як американські та китайські моделі продемонстрували силу, результати стали ударом для Mistral, французького гіганта у сфері ШІ. Моделі Mistral, включаючи нещодавню Medium 3.5, потрапили до нижньої третини бенчмарку. Ці висновки перегукуються з попереднім дослідженням Newsguard, яке зафіксувало 36,67 відсотка дезінформації у моделях Mistral.
Ця вразливість є особливо значущою, враховуючи стратегічне становище Mistral. Як основна європейська альтернатива американським та китайським постачальникам ШІ, компанія наразі перебуває в процесі переговорів щодо раунду фінансування на суму 3 мільярди євро при оцінці у 20 мільярдів євро. Для компанії, яка позиціонує себе як надійний постачальник суверенного ШІ, нездатність стабільно відбивати пропаганду становить серйозний репутаційний та технічний виклик.
Чому це важливо для ландшафту ШІ
Ставки цього бенчмарку виходять за межі простих показників точності. Російські дезінформаційні мережі, такі як «Правда», активно працюють над тим, щоб наповнити набори даних для навчання ШІ мільйонами сфабрикованих статей, щоб «отруїти» логіку майбутніх моделей. Оскільки OpenAI вже виявила та припинила російські кампанії з використанням ChatGPT для впливу на федеральні вибори в Німеччині, боротьба за цілісність LLM стає фронтовою проблемою у сфері глобальної інформаційної безпеки.
Основні висновки
- Домінування Anthropic: моделі Claude, зокрема Claude Fable 5, продемонстрували вищу стійкість до пропаганди порівняно з усіма іншими протестованими моделями.
- Mistral під тиском: попри високу оцінку та європейську важливість, моделі Mistral відчули значні труднощі з дезінформацією, відстаючи від американських та китайських конкурентів.
- Загроза навчанню: бенчмарк підкреслює нагальну потребу в надійних методах захисту, оскільки державні актори активно намагаються маніпулювати результатами LLM за допомогою масштабних дезінформаційних кампаній.