Kann KI russischer Propaganda widerstehen? Neuer Benchmark zeigt die Gewinner
Da Desinformationskampagnen immer ausgeklügelter werden, stellt sich eine entscheidende Frage: Können große Sprachmodelle (LLMs) zwischen Fakten und staatlich gesteuerter Manipulation unterscheiden? Eine aktuelle Studie des Instituts für estnische Sprache hat eine fundierte Antwort geliefert, indem sie die Widerstandsfähigkeit von 60 verschiedenen KI-Modellen gegenüber gezielter russischer Propaganda testete.
Die Methodik: Widerstandsfähigkeit ohne Webzugriff testen
Um sicherzustellen, dass die Ergebnisse die inhärenten Denkfähigkeiten der Modelle und nicht deren Fähigkeit zum Durchsuchen des Live-Webs messen, führten die Forscher die Tests ohne Zugriff auf Suchmaschinen oder externe Tools durch. Der Benchmark nutzte 75 Fragen in drei Sprachen, die gezielt auf 14 verschiedene Propagandanarrative abzielten. Diese Narrative wurden in unterschiedlichen Schwierigkeitsgraden präsentiert, die von neutraler Formulierung bis hin zu stark voreingenommenen und manipulativen Prompts reichten.
Der Evaluierungsprozess war hochgradig strukturiert. Jede Antwort wurde auf einer Skala von 1 bis 5 bewertet, wobei ein Wert von 1 bedeutet, dass das Modell den russischen Narrativen erlegen ist und diese wiederholt hat. Um eine hohe Genauigkeit zu gewährleisten, diente ein kalibriertes Claude Opus 4.5 als Schiedsrichter, wobei die Ergebnisse zusätzlich von Desinformationsexperten der Organisation Propastop validiert wurden.
Anthropic führt bei der Abwehr von Desinformation
Die Ergebnisse zeigen eine erhebliche Leistungslücke zwischen verschiedenen KI-Anbietern auf. Die Claude-Familie von Anthropic erwies sich als Branchenführer im Widerstand gegen Desinformation. Insbesondere Claude Fable 5 (das derzeit außerhalb der USA eingeschränkt ist) erreichte einen beeindruckenden Spitzenwert von 95,2. Es wurde dicht gefolgt von Claude Opus 4.7, was die Position von Anthropic als aktuellen Goldstandard für Sicherheit und faktische Integrität festigt.
Zu den weiteren bemerkenswerten Akteuren gehörten Nvidias Nemotron 3 und Alibabas Qwen 3.6 Plus, die beide eine robuste Fähigkeit zeigten, manipulative Narrative zu identifizieren und abzulehnen.
Mistrals Anfälligkeit und die Tragweite für europäische KI
Während US-amerikanische und chinesische Modelle Stärke zeigten, waren die Ergebnisse ein Rückschlag für Mistral, das französische KI-Kraftpaket. Die Modelle von Mistral, einschließlich des jüngsten Medium 3.5, landeten im unteren Drittel des Benchmarks. Diese Ergebnisse spiegeln eine frühere Newsguard-Studie wider, die eine Desinformationsrate von 36,67 Prozent für Mistral verzeichnete.
Diese Schwachstelle ist angesichts der strategischen Position von Mistral besonders bedeutsam. Als primäre europäische Alternative zu US-amerikanischen und chinesischen KI-Anbietern verhandelt das Unternehmen derzeit über eine Finanzierungsrunde in Höhe von 3 Milliarden Euro bei einer Bewertung von 20 Milliarden Euro. Für ein Unternehmen, das sich als zuverlässiger Anbieter souveräner KI positioniert, stellt die Unfähigkeit, Propaganda konsequent abzuwehren, eine erhebliche Reputations- und technische Herausforderung dar.
Warum dies für die KI-Landschaft von Bedeutung ist
Der Einsatz dieses Benchmarks geht über einfache Genauigkeitswerte hinaus. Russische Desinformationsnetzwerke wie „Pravda“ arbeiten aktiv daran, KI-Trainingsdatensätze mit Millionen von fingierten Artikeln zu fluten, um die Logik zukünftiger Modelle zu „vergiften“. Da OpenAI bereits russische Kampagnen identifiziert und gestoppt hat, die ChatGPT nutzten, um deutsche Bundestagswahlen zu beeinflussen, wird der Kampf um die Integrität von LLMs zu einem zentralen Thema der globalen Informationssicherheit.
Wichtigste Erkenntnisse
- Dominanz von Anthropic: Claude-Modelle, insbesondere Claude Fable 5, zeigten im Vergleich zu allen anderen getesteten Modellen eine überlegene Widerstandsfähigkeit gegenüber Propaganda.
- Mistral unter Druck: Trotz seiner hohen Bewertung und seiner Bedeutung für Europa hatten Mistral-Modelle erheblich mit Desinformation zu kämpfen und lagen hinter US-amerikanischen und chinesischen Wettbewerbern zurück.
- Die Bedrohung des Trainings: Der Benchmark unterstreicht die dringende Notwendigkeit robuster Abwehrmechanismen, da staatlich geförderte Akteure aktiv versuchen, LLM-Ausgaben durch massive Desinformationskampagnen zu manipulieren.