Czy AI może oprzeć się rosyjskiej propagandzie? Nowy benchmark ujawnia zwycięzców

W miarę jak kampanie dezinformacyjne stają się coraz bardziej wyrafinowane, pojawia się kluczowe pytanie: czy duże modele językowe (LLM) potrafią odróżnić fakty od manipulacji wspieranych przez państwo? Niedawne badanie przeprowadzone przez Instytut Języka Estońskiego dostarczyło rygorystycznej odpowiedzi, testując odporność 60 różnych modeli AI na ukierunkowaną rosyjską propagandę.

Metodologia: Testowanie odporności bez dostępu do sieci

Aby upewnić się, że wyniki mierzą wrodzone zdolności rozumowania modeli, a nie ich umiejętność przeglądania sieci na żywo, badacze przeprowadzili testy bez dostępu do wyszukiwarek czy narzędzi zewnętrznych. Benchmark wykorzystał 75 pytań w trzech językach, celując konkretnie w 14 odrębnych narracji propagandowych. Narracje te przedstawiono w różnym stopniu trudności – od neutralnych sformułowań po wysoce stronnicze i manipulacyjne polecenia.

Proces oceny był wysoce ustrukturyzowany. Każda odpowiedź była oceniana w skali od 1 do 5, gdzie wynik 1 oznaczał, że model uległ rosyjskim argumentom i je powtórzył. Aby zachować wysoką dokładność, sędzią był skalibrowany Claude Opus 4.5, a wyniki zostały dodatkowo zweryfikowane przez ekspertów ds. dezinformacji z organizacji Propastop.

Anthropic przoduje w obronie przed dezinformacją

Wyniki uwypuklają znaczącą lukę w wydajności między różnymi dostawcami AI. Rodzina modeli Claude od Anthropic wyłoniła się jako lider branży w opieraniu się dezinformacji. W szczególności Claude Fable 5 (który jest obecnie dostępny wyłącznie w USA) uzyskał imponujący, najwyższy wynik 95,2. Tuż za nim uplasował się Claude Opus 4.7, co umacnia pozycję Anthropic jako obecnego złotego standardu w zakresie bezpieczeństwa i rzetelności faktograficznej.

Innymi godnymi uwagi modelami były Nemotron 3 od Nvidia oraz Qwen 3.6 Plus od Alibaba, z których oba wykazały silną zdolność do identyfikowania i odrzucania manipulacyjnych narracji.

Podatność Mistral i stawka dla europejskiej sztucznej inteligencji

Podczas gdy modele amerykańskie i chińskie wykazały siłę, wyniki okazały się ciosem dla Mistral, francuskiego giganta AI. Modele Mistral, w tym niedawny Medium 3.5, znalazły się w dolnej jednej trzeciej rankingu. Wyniki te korespondują z wcześniejszym badaniem Newsguard, które odnotowało 36,67-procentowy wskaźnik dezinformacji dla Mistral.

Ta podatność jest szczególnie istotna, biorąc pod uwagę strategiczną pozycję Mistral. Jako główna europejska alternatywa dla dostawców AI z USA i Chin, firma znajduje się obecnie w trakcie negocjacji rundy finansowania o wartości 3 miliardów euro przy wycenie na poziomie 20 miliardów euro. Dla firmy pozycjonującej się jako niezawodny, suwerenny dostawca AI, niezdolność do konsekwentnego odrzucania propagandy stanowi poważne wyzwanie reputacyjne i techniczne.

Dlaczego ma to znaczenie dla krajobrazu AI

Stawka tego benchmarku wykracza poza proste wyniki dokładności. Rosyjskie sieci dezinformacyjne, takie jak „Prawda”, aktywnie pracują nad zalaniem zestawów treningowych AI milionami sfabrykowanych artykułów, aby „zatruć” logikę przyszłych modeli. Skoro OpenAI zidentyfikowało już i zamknęło rosyjskie kampanie wykorzystujące ChatGPT do wpływania na niemieckie wybory federalne, walka o integralność modeli LLM staje się kluczowym problemem na pierwszej linii globalnego bezpieczeństwa informacyjnego.

Kluczowe wnioski