Yapay Zeka Rus Propagandasına Direnebilir mi? Yeni Kıyaslama Testi Kazananları Ortaya Koyuyor
Dezenformasyon kampanyaları giderek daha karmaşık hale gelirken, kritik bir soru ortaya çıkıyor: Büyük dil modelleri (LLM'ler) gerçeği devlet destekli manipülasyondan ayırt edebilir mi? Eston Dil Enstitüsü tarafından yapılan yeni bir çalışma, 60 farklı yapay zeka modelinin hedeflenmiş Rus propagandasına karşı direncini test ederek bu soruya titiz bir yanıt verdi.
Metodoloji: Web Erişimi Olmadan Direnç Testi
Sonuçların modellerin canlı web'de gezinme yeteneklerinden ziyade, yerleşik muhakeme yeteneklerini ölçtüğünden emin olmak için araştırmacılar testleri arama motorlarına veya harici araçlara erişim olmadan gerçekleştirdi. Kıyaslama testi, üç dilde 75 soru kullanarak özellikle 14 farklı propaganda anlatısını hedef aldı. Bu anlatılar, nötr ifadelerden son derece taraflı ve manipülatif istemlere (prompt) kadar değişen zorluk derecelerinde sunuldu.
Değerlendirme süreci oldukça yapılandırılmıştı. Her yanıt 1 ile 5 arasında bir ölçekle puanlandı; 1 puan, modelin Rus söylemlerine boyun eğdiğini ve bunları tekrarladığını gösteriyordu. Yüksek doğruluğu korumak amacıyla, kalibre edilmiş bir Claude Opus 4.5 hakemlik yaptı ve sonuçlar Propastop kuruluşundan dezenformasyon uzmanları tarafından daha da doğrulandı.
Dezenformasyon Savunmasında Lider Anthropic
Sonuçlar, farklı yapay zeka sağlayıcıları arasındaki önemli performans farkını gözler önüne seriyor. Anthropic'in Claude ailesi, dezenformasyona direnme konusunda sektör lideri olarak öne çıktı. Özellikle, (şu anda ABD dışına kısıtlı olan) Claude Fable 5, 95,2 ile açık ara en yüksek puanı aldı. Onu yakından takip eden Claude Opus 4.7, Anthropic'in güvenlik ve olgusal bütünlük konusundaki mevcut altın standart olma konumunu pekiştirdi.
Diğer dikkat çeken performanslar arasında, manipülatif anlatıları tanımlama ve reddetme konusunda güçlü bir yetenek sergileyen Nvidia'nın Nemotron 3'ü ve Alibaba'nın Qwen 3.6 Plus'ı yer aldı.
Mistral'ın Savunmasızlığı ve Avrupa Yapay Zekası İçin Riskler
ABD ve Çin modelleri güç gösterisi yaparken, sonuçlar Fransız yapay zeka devi Mistral için bir gerileme oldu. Son çıkan Medium 3.5 da dahil olmak üzere Mistral modelleri, kıyaslama testinin en alt üçte birlik diliminde yer aldı. Bu bulgular, Mistral için yüzde 36,67'lik bir yanlış bilgi oranı kaydeden önceki bir Newsguard çalışmasıyla paralellik gösteriyor.
Mistral'in stratejik konumu göz önüne alındığında, bu zaafiyet özellikle önemlidir. ABD merkezli ve Çinli yapay zeka sağlayıcılarına karşı birincil Avrupa alternatifi olan şirket, şu anda 20 milyar avroluk bir değerleme üzerinden 3 milyar avroluk bir yatırım turu müzakereleri yürütmektedir. Kendini güvenilir bir egemen yapay zeka sağlayıcısı olarak konumlandıran bir şirket için, propagandayı tutarlı bir şekilde savuşturamamak, önemli bir itibar ve teknik zorluk teşkil etmektedir.
Bu Durum Yapay Zeka Dünyası İçin Neden Önemli
Bu kıyaslamanın (benchmark) taşıdığı riskler, basit doğruluk puanlarının ötesine geçmektedir. "Pravda" gibi Rus dezenformasyon ağları, gelecekteki modellerin mantığını "zehirlemek" amacıyla yapay zeka eğitim setlerini milyonlarca uydurma makaleyle doldurmak için aktif olarak çalışmaktadır. OpenAI'ın, Alman federal seçimlerini etkilemek için ChatGPT kullanan Rus kampanyalarını halihazırda tespit edip durdurmuş olmasıyla birlikte, LLM'lerin bütünlüğü için verilen mücadele, küresel bilgi güvenliğinde bir ön cephe meselesi haline gelmektedir.
Önemli Çıkarımlar
- Anthropic Hakimiyeti: Claude modelleri, özellikle Claude Fable 5, test edilen diğer tüm modellere kıyasla propagandaya karşı üstün bir direnç göstermiştir.
- Baskı Altındaki Mistral: Yüksek değerlemesine ve Avrupa için taşıdığı öneme rağmen, Mistral modelleri yanlış bilgilerle mücadelede ciddi zorluklar yaşamış, ABD ve Çinli rakiplerinin gerisinde kalmıştır.
- Eğitim Tehdidi: Devlet destekli aktörlerin, kitlesel dezenformasyon kampanyaları yoluyla LLM çıktılarını aktif olarak manipüle etmeye çalışması, bu kıyaslamanın güçlü savunmalara duyulan acil ihtiyacı vurgulamaktadır.