Может ли ИИ противостоять российской пропаганде? Новый бенчмарк выявил лидеров

По мере того как кампании по дезинформации становятся все более изощренными, возникает критически важный вопрос: могут ли большие языковые модели (LLM) отличить факты от спонсируемых государством манипуляций? Недавнее исследование Института эстонского языка дало строгий ответ, протестировав устойчивость 60 различных моделей ИИ к целенаправленной российской пропаганде.

Методология: тестирование устойчивости без доступа к интернету

Чтобы результаты отражали врожденные способности моделей к рассуждению, а не их умение просматривать веб-страницы в реальном времени, исследователи проводили тесты без доступа к поисковым системам или внешним инструментам. В бенчмарке использовалось 75 вопросов на трех языках, нацеленных на 14 различных пропагандистских нарративов. Эти нарративы представлялись с разной степенью сложности: от нейтральных формулировок до крайне предвзятых и манипулятивных промптов.

Процесс оценки был четко структурирован. Каждому ответу выставлялся балл по шкале от 1 до 5, где 1 означает, что модель поддалась влиянию и повторила тезисы российской пропаганды. Для обеспечения высокой точности в роли судьи выступала откалиброванная модель Claude Opus 4.5, а результаты дополнительно проверялись экспертами по дезинформации из организации Propastop.

Anthropic лидирует в защите от дезинформации

Результаты указывают на значительный разрыв в производительности между различными поставщиками ИИ. Семейство моделей Claude от Anthropic стало лидером отрасли в противостоянии дезинформации. В частности, Claude Fable 5 (доступ к которой в настоящее время ограничен за пределами США) получила впечатляющий высший балл — 95,2. За ней вплотную следовала Claude Opus 4.7, что закрепило за Anthropic статус текущего золотого стандарта безопасности и фактической точности.

Среди других заметных результатов — Nemotron 3 от Nvidia и Qwen 3.6 Plus от Alibaba, которые продемонстрировали высокую способность распознавать и отвергать манипулятивные нарративы.

Уязвимость Mistral и риски для европейского ИИ

В то время как американские и китайские модели показали силу, результаты стали ударом для Mistral, французского гиганта в области ИИ. Модели Mistral, включая недавнюю Medium 3.5, попали в нижнюю треть бенчмарка. Эти выводы перекликаются с предыдущим исследованием Newsguard, которое зафиксировало 36,67% уровень дезинформации для Mistral.

Эта уязвимость особенно значима, учитывая стратегическое положение Mistral. Будучи основной европейской альтернативой американским и китайским поставщикам ИИ, компания в настоящее время ведет переговоры о раунде финансирования в размере 3 млрд евро при оценке в 20 млрд евро. Для компании, позиционирующей себя как надежного поставщика суверенного ИИ, неспособность последовательно отражать пропаганду представляет собой серьезную репутационную и техническую проблему.

Почему это важно для ландшафта ИИ

Ставки этого бенчмарка выходят за рамки простых показателей точности. Российские сети дезинформации, такие как «Правда», активно работают над тем, чтобы наводнить обучающие наборы данных ИИ миллионами сфабрикованных статей с целью «отравить» логику будущих моделей. Поскольку OpenAI уже выявила и пресекла российские кампании по использованию ChatGPT для влияния на федеральные выборы в Германии, борьба за целостность LLM становится вопросом передовой в глобальной информационной безопасности.

Основные выводы