Czy AI może oprzeć się rosyjskiej propagandzie? Nowy benchmark ujawnia zwycięzców

📅3 hours ago⏱3 min read

In this article

Czy AI może oprzeć się rosyjskiej propagandzie? Nowy benchmark ujawnia zwycięzców

W miarę jak kampanie dezinformacyjne stają się coraz bardziej wyrafinowane, pojawia się kluczowe pytanie: czy duże modele językowe (LLM) potrafią odróżnić fakty od manipulacji wspieranych przez państwo? Niedawne badanie przeprowadzone przez Instytut Języka Estońskiego dostarczyło rygorystycznej odpowiedzi, testując odporność 60 różnych modeli AI na ukierunkowaną rosyjską propagandę.

Metodologia: Testowanie odporności bez dostępu do sieci

Aby upewnić się, że wyniki mierzą wrodzone zdolności rozumowania modeli, a nie ich umiejętność przeglądania sieci na żywo, badacze przeprowadzili testy bez dostępu do wyszukiwarek czy narzędzi zewnętrznych. Benchmark wykorzystał 75 pytań w trzech językach, celując konkretnie w 14 odrębnych narracji propagandowych. Narracje te przedstawiono w różnym stopniu trudności – od neutralnych sformułowań po wysoce stronnicze i manipulacyjne polecenia.

Proces oceny był wysoce ustrukturyzowany. Każda odpowiedź była oceniana w skali od 1 do 5, gdzie wynik 1 oznaczał, że model uległ rosyjskim argumentom i je powtórzył. Aby zachować wysoką dokładność, sędzią był skalibrowany Claude Opus 4.5, a wyniki zostały dodatkowo zweryfikowane przez ekspertów ds. dezinformacji z organizacji Propastop.

Anthropic przoduje w obronie przed dezinformacją

Wyniki uwypuklają znaczącą lukę w wydajności między różnymi dostawcami AI. Rodzina modeli Claude od Anthropic wyłoniła się jako lider branży w opieraniu się dezinformacji. W szczególności Claude Fable 5 (który jest obecnie dostępny wyłącznie w USA) uzyskał imponujący, najwyższy wynik 95,2. Tuż za nim uplasował się Claude Opus 4.7, co umacnia pozycję Anthropic jako obecnego złotego standardu w zakresie bezpieczeństwa i rzetelności faktograficznej.

Innymi godnymi uwagi modelami były Nemotron 3 od Nvidia oraz Qwen 3.6 Plus od Alibaba, z których oba wykazały silną zdolność do identyfikowania i odrzucania manipulacyjnych narracji.

Podatność Mistral i stawka dla europejskiej sztucznej inteligencji

Podczas gdy modele amerykańskie i chińskie wykazały siłę, wyniki okazały się ciosem dla Mistral, francuskiego giganta AI. Modele Mistral, w tym niedawny Medium 3.5, znalazły się w dolnej jednej trzeciej rankingu. Wyniki te korespondują z wcześniejszym badaniem Newsguard, które odnotowało 36,67-procentowy wskaźnik dezinformacji dla Mistral.

Ta podatność jest szczególnie istotna, biorąc pod uwagę strategiczną pozycję Mistral. Jako główna europejska alternatywa dla dostawców AI z USA i Chin, firma znajduje się obecnie w trakcie negocjacji rundy finansowania o wartości 3 miliardów euro przy wycenie na poziomie 20 miliardów euro. Dla firmy pozycjonującej się jako niezawodny, suwerenny dostawca AI, niezdolność do konsekwentnego odrzucania propagandy stanowi poważne wyzwanie reputacyjne i techniczne.

Dlaczego ma to znaczenie dla krajobrazu AI

Stawka tego benchmarku wykracza poza proste wyniki dokładności. Rosyjskie sieci dezinformacyjne, takie jak „Prawda”, aktywnie pracują nad zalaniem zestawów treningowych AI milionami sfabrykowanych artykułów, aby „zatruć” logikę przyszłych modeli. Skoro OpenAI zidentyfikowało już i zamknęło rosyjskie kampanie wykorzystujące ChatGPT do wpływania na niemieckie wybory federalne, walka o integralność modeli LLM staje się kluczowym problemem na pierwszej linii globalnego bezpieczeństwa informacyjnego.

Kluczowe wnioski

Dominacja Anthropic: Modele Claude, w szczególności Claude Fable 5, wykazały wyższą odporność na propagandę w porównaniu ze wszystkimi innymi testowanymi modelami.
Mistral pod presją: Mimo wysokiej wyceny i znaczenia dla Europy, modele Mistral miały znaczne trudności z dezinformacją, pozostając w tyle za amerykańskimi i chińskimi konkurentami.
Zagrożenie dla procesu trenowania: Benchmark podkreśla pilną potrzebę stworzenia solidnych mechanizmów obronnych, ponieważ aktorzy wspierani przez państwa aktywnie próbują manipulować wynikami LLM poprzez masowe kampanie dezinformacyjne.

Czy AI może oprzeć się rosyjskiej propagandzie? Nowy benchmark ujawnia zwycięzców

Czy AI może oprzeć się rosyjskiej propagandzie? Nowy benchmark ujawnia zwycięzców

Metodologia: Testowanie odporności bez dostępu do sieci

Anthropic przoduje w obronie przed dezinformacją

Podatność Mistral i stawka dla europejskiej sztucznej inteligencji

Dlaczego ma to znaczenie dla krajobrazu AI

Kluczowe wnioski

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

𝗧𝗵𝗲 𝗨𝗦 𝗚𝗼𝘃𝗲𝗿𝗻𝗺𝗲𝗻𝘁 𝗥𝗲𝗰𝗮𝗹𝗹𝗲𝗱 𝗔𝗻 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹

AI Red Teaming: Zabezpieczanie dużych modeli językowych przed ryzykami adwersarialnymi

Prawdopodobnie pozyskuje 9 mln USD na walkę z halucynacjami LLM dzięki inżynierii precyzyjnej