Kann KI russischer Propaganda widerstehen? Neuer Benchmark enthüllt Gewinner

📅3 hours ago⏱3 min read

In this article

Kann KI russischer Propaganda widerstehen? Neuer Benchmark zeigt die Gewinner

Da Desinformationskampagnen immer ausgeklügelter werden, stellt sich eine entscheidende Frage: Können große Sprachmodelle (LLMs) zwischen Fakten und staatlich gesteuerter Manipulation unterscheiden? Eine aktuelle Studie des Instituts für estnische Sprache hat eine fundierte Antwort geliefert, indem sie die Widerstandsfähigkeit von 60 verschiedenen KI-Modellen gegenüber gezielter russischer Propaganda testete.

Die Methodik: Widerstandsfähigkeit ohne Webzugriff testen

Um sicherzustellen, dass die Ergebnisse die inhärenten Denkfähigkeiten der Modelle und nicht deren Fähigkeit zum Durchsuchen des Live-Webs messen, führten die Forscher die Tests ohne Zugriff auf Suchmaschinen oder externe Tools durch. Der Benchmark nutzte 75 Fragen in drei Sprachen, die gezielt auf 14 verschiedene Propagandanarrative abzielten. Diese Narrative wurden in unterschiedlichen Schwierigkeitsgraden präsentiert, die von neutraler Formulierung bis hin zu stark voreingenommenen und manipulativen Prompts reichten.

Der Evaluierungsprozess war hochgradig strukturiert. Jede Antwort wurde auf einer Skala von 1 bis 5 bewertet, wobei ein Wert von 1 bedeutet, dass das Modell den russischen Narrativen erlegen ist und diese wiederholt hat. Um eine hohe Genauigkeit zu gewährleisten, diente ein kalibriertes Claude Opus 4.5 als Schiedsrichter, wobei die Ergebnisse zusätzlich von Desinformationsexperten der Organisation Propastop validiert wurden.

Anthropic führt bei der Abwehr von Desinformation

Die Ergebnisse zeigen eine erhebliche Leistungslücke zwischen verschiedenen KI-Anbietern auf. Die Claude-Familie von Anthropic erwies sich als Branchenführer im Widerstand gegen Desinformation. Insbesondere Claude Fable 5 (das derzeit außerhalb der USA eingeschränkt ist) erreichte einen beeindruckenden Spitzenwert von 95,2. Es wurde dicht gefolgt von Claude Opus 4.7, was die Position von Anthropic als aktuellen Goldstandard für Sicherheit und faktische Integrität festigt.

Zu den weiteren bemerkenswerten Akteuren gehörten Nvidias Nemotron 3 und Alibabas Qwen 3.6 Plus, die beide eine robuste Fähigkeit zeigten, manipulative Narrative zu identifizieren und abzulehnen.

Mistrals Anfälligkeit und die Tragweite für europäische KI

Während US-amerikanische und chinesische Modelle Stärke zeigten, waren die Ergebnisse ein Rückschlag für Mistral, das französische KI-Kraftpaket. Die Modelle von Mistral, einschließlich des jüngsten Medium 3.5, landeten im unteren Drittel des Benchmarks. Diese Ergebnisse spiegeln eine frühere Newsguard-Studie wider, die eine Desinformationsrate von 36,67 Prozent für Mistral verzeichnete.

Diese Schwachstelle ist angesichts der strategischen Position von Mistral besonders bedeutsam. Als primäre europäische Alternative zu US-amerikanischen und chinesischen KI-Anbietern verhandelt das Unternehmen derzeit über eine Finanzierungsrunde in Höhe von 3 Milliarden Euro bei einer Bewertung von 20 Milliarden Euro. Für ein Unternehmen, das sich als zuverlässiger Anbieter souveräner KI positioniert, stellt die Unfähigkeit, Propaganda konsequent abzuwehren, eine erhebliche Reputations- und technische Herausforderung dar.

Warum dies für die KI-Landschaft von Bedeutung ist

Der Einsatz dieses Benchmarks geht über einfache Genauigkeitswerte hinaus. Russische Desinformationsnetzwerke wie „Pravda“ arbeiten aktiv daran, KI-Trainingsdatensätze mit Millionen von fingierten Artikeln zu fluten, um die Logik zukünftiger Modelle zu „vergiften“. Da OpenAI bereits russische Kampagnen identifiziert und gestoppt hat, die ChatGPT nutzten, um deutsche Bundestagswahlen zu beeinflussen, wird der Kampf um die Integrität von LLMs zu einem zentralen Thema der globalen Informationssicherheit.

Wichtigste Erkenntnisse

Dominanz von Anthropic: Claude-Modelle, insbesondere Claude Fable 5, zeigten im Vergleich zu allen anderen getesteten Modellen eine überlegene Widerstandsfähigkeit gegenüber Propaganda.
Mistral unter Druck: Trotz seiner hohen Bewertung und seiner Bedeutung für Europa hatten Mistral-Modelle erheblich mit Desinformation zu kämpfen und lagen hinter US-amerikanischen und chinesischen Wettbewerbern zurück.
Die Bedrohung des Trainings: Der Benchmark unterstreicht die dringende Notwendigkeit robuster Abwehrmechanismen, da staatlich geförderte Akteure aktiv versuchen, LLM-Ausgaben durch massive Desinformationskampagnen zu manipulieren.

Kann KI russischer Propaganda widerstehen? Neuer Benchmark enthüllt Gewinner

Kann KI russischer Propaganda widerstehen? Neuer Benchmark zeigt die Gewinner

Die Methodik: Widerstandsfähigkeit ohne Webzugriff testen

Anthropic führt bei der Abwehr von Desinformation

Mistrals Anfälligkeit und die Tragweite für europäische KI

Warum dies für die KI-Landschaft von Bedeutung ist

Wichtigste Erkenntnisse

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

Die US-Regierung hat ein KI-Modell zurückgerufen

AI Red Teaming: Absicherung von Large Language Models gegen adversarielle Risiken

Sammelt vermutlich 9 Mio. $ ein, um LLM-Halluzinationen mittels Precision Engineering zu bekämpfen