Может ли ИИ противостоять российской пропаганде? Новый бенчмарк выявил победителей

📅3 hours ago⏱3 min read

In this article

Может ли ИИ противостоять российской пропаганде? Новый бенчмарк выявил лидеров

По мере того как кампании по дезинформации становятся все более изощренными, возникает критически важный вопрос: могут ли большие языковые модели (LLM) отличить факты от спонсируемых государством манипуляций? Недавнее исследование Института эстонского языка дало строгий ответ, протестировав устойчивость 60 различных моделей ИИ к целенаправленной российской пропаганде.

Методология: тестирование устойчивости без доступа к интернету

Чтобы результаты отражали врожденные способности моделей к рассуждению, а не их умение просматривать веб-страницы в реальном времени, исследователи проводили тесты без доступа к поисковым системам или внешним инструментам. В бенчмарке использовалось 75 вопросов на трех языках, нацеленных на 14 различных пропагандистских нарративов. Эти нарративы представлялись с разной степенью сложности: от нейтральных формулировок до крайне предвзятых и манипулятивных промптов.

Процесс оценки был четко структурирован. Каждому ответу выставлялся балл по шкале от 1 до 5, где 1 означает, что модель поддалась влиянию и повторила тезисы российской пропаганды. Для обеспечения высокой точности в роли судьи выступала откалиброванная модель Claude Opus 4.5, а результаты дополнительно проверялись экспертами по дезинформации из организации Propastop.

Anthropic лидирует в защите от дезинформации

Результаты указывают на значительный разрыв в производительности между различными поставщиками ИИ. Семейство моделей Claude от Anthropic стало лидером отрасли в противостоянии дезинформации. В частности, Claude Fable 5 (доступ к которой в настоящее время ограничен за пределами США) получила впечатляющий высший балл — 95,2. За ней вплотную следовала Claude Opus 4.7, что закрепило за Anthropic статус текущего золотого стандарта безопасности и фактической точности.

Среди других заметных результатов — Nemotron 3 от Nvidia и Qwen 3.6 Plus от Alibaba, которые продемонстрировали высокую способность распознавать и отвергать манипулятивные нарративы.

Уязвимость Mistral и риски для европейского ИИ

В то время как американские и китайские модели показали силу, результаты стали ударом для Mistral, французского гиганта в области ИИ. Модели Mistral, включая недавнюю Medium 3.5, попали в нижнюю треть бенчмарка. Эти выводы перекликаются с предыдущим исследованием Newsguard, которое зафиксировало 36,67% уровень дезинформации для Mistral.

Эта уязвимость особенно значима, учитывая стратегическое положение Mistral. Будучи основной европейской альтернативой американским и китайским поставщикам ИИ, компания в настоящее время ведет переговоры о раунде финансирования в размере 3 млрд евро при оценке в 20 млрд евро. Для компании, позиционирующей себя как надежного поставщика суверенного ИИ, неспособность последовательно отражать пропаганду представляет собой серьезную репутационную и техническую проблему.

Почему это важно для ландшафта ИИ

Ставки этого бенчмарка выходят за рамки простых показателей точности. Российские сети дезинформации, такие как «Правда», активно работают над тем, чтобы наводнить обучающие наборы данных ИИ миллионами сфабрикованных статей с целью «отравить» логику будущих моделей. Поскольку OpenAI уже выявила и пресекла российские кампании по использованию ChatGPT для влияния на федеральные выборы в Германии, борьба за целостность LLM становится вопросом передовой в глобальной информационной безопасности.

Основные выводы

Доминирование Anthropic: Модели Claude, в частности Claude Fable 5, продемонстрировали превосходную устойчивость к пропаганде по сравнению со всеми остальными протестированными моделями.
Mistral под давлением: Несмотря на высокую оценку и европейскую значимость, модели Mistral столкнулись с серьезными трудностями при работе с дезинформацией, отставая от американских и китайских конкурентов.
Угроза обучению: Бенчмарк подчеркивает острую необходимость в надежной защите, поскольку спонсируемые государствами субъекты активно пытаются манипулировать результатами работы LLM с помощью масштабных кампаний по дезинформации.

Может ли ИИ противостоять российской пропаганде? Новый бенчмарк выявил победителей

Может ли ИИ противостоять российской пропаганде? Новый бенчмарк выявил лидеров

Методология: тестирование устойчивости без доступа к интернету

Anthropic лидирует в защите от дезинформации

Уязвимость Mistral и риски для европейского ИИ

Почему это важно для ландшафта ИИ

Основные выводы

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

Правительство США отозвало модель ИИ

Red Teaming ИИ: Защита больших языковых моделей от состязательных рисков

Вероятно, привлекает $9 млн для борьбы с галлюцинациями LLM с помощью прецизионного инжиниринга