क्या AI रूसी दुष्प्रचार का मुकाबला कर सकता है? नया बेंचमार्क विजेताओं का खुलासा करता है

📅4 hours ago⏱3 min read

In this article

क्या AI रूसी दुष्प्रचार का मुकाबला कर सकता है? नया बेंचमार्क विजेताओं का खुलासा करता है

जैसे-जैसे दुष्प्रचार (disinformation) अभियान अधिक परिष्कृत होते जा रहे हैं, एक महत्वपूर्ण प्रश्न उभरता है: क्या लार्ज लैंग्वेज मॉडल्स (LLMs) तथ्यों और राज्य-प्रायोजित हेरफेर के बीच अंतर कर सकते हैं? 'इंस्टिट्यूट ऑफ द एस्टोनियन लैंग्वेज' के एक हालिया अध्ययन ने 60 अलग-अलग AI मॉडल्स की लक्षित रूसी दुष्प्रचार के खिलाफ प्रतिरोधक क्षमता का परीक्षण करके एक सटीक उत्तर प्रदान किया है।

कार्यप्रणाली: वेब एक्सेस के बिना प्रतिरोधक क्षमता का परीक्षण

यह सुनिश्चित करने के लिए कि परिणाम मॉडल्स की लाइव वेब ब्राउज़ करने की क्षमता के बजाय उनकी अंतर्निहित तर्क क्षमता (reasoning capabilities) को मापें, शोधकर्ताओं ने सर्च इंजन या बाहरी टूल के बिना परीक्षण किए। इस बेंचमार्क में तीन भाषाओं में 75 प्रश्नों का उपयोग किया गया, जो विशेष रूप से 14 अलग-अलग दुष्प्रचार विमर्शों (propaganda narratives) को लक्षित करते थे। इन विमर्शों को कठिनाई के विभिन्न स्तरों पर प्रस्तुत किया गया था, जिसमें तटस्थ शब्दावली से लेकर अत्यधिक पक्षपाती और हेरफेर करने वाले प्रॉम्प्ट्स तक शामिल थे।

मूल्यांकन प्रक्रिया अत्यधिक व्यवस्थित थी। प्रत्येक प्रतिक्रिया को 1 से 5 के पैमाने पर स्कोर दिया गया था, जहाँ 1 का स्कोर यह दर्शाता है कि मॉडल रूसी तर्कों (talking points) के आगे झुक गया और उन्हें दोहराया। उच्च सटीकता बनाए रखने के लिए, एक कैलिब्रेटेड Claude Opus 4.5 ने जज के रूप में कार्य किया, और परिणामों को 'Propastop' संस्था के दुष्प्रचार विशेषज्ञों द्वारा और अधिक सत्यापित किया गया।

दुष्प्रचार रक्षा में Anthropic सबसे आगे

परिणाम विभिन्न AI प्रदाताओं के बीच प्रदर्शन के एक महत्वपूर्ण अंतर को उजागर करते हैं। दुष्प्रचार का विरोध करने में Anthropic का Claude परिवार उद्योग जगत के अग्रणी के रूप में उभरा। विशेष रूप से, Claude Fable 5 (जो वर्तमान में अमेरिका के बाहर प्रतिबंधित है) ने 95.2 का शानदार शीर्ष स्कोर प्राप्त किया। इसके ठीक बाद Claude Opus 4.7 का स्थान रहा, जिसने सुरक्षा और तथ्यात्मक अखंडता के लिए Anthropic की स्थिति को वर्तमान 'गोल्ड स्टैंडर्ड' के रूप में मजबूत कर दिया।

अन्य उल्लेखनीय प्रदर्शनकर्ताओं में Nvidia का Nemotron 3 और Alibaba का Qwen 3.6 Plus शामिल थे, दोनों ने हेरफेर करने वाले विमर्शों को पहचानने और उन्हें खारिज करने की मजबूत क्षमता का प्रदर्शन किया।

Mistral की संवेदनशीलता और यूरोपीय AI के लिए जोखिम

जहाँ अमेरिकी और चीनी मॉडल्स ने मजबूती दिखाई, वहीं परिणाम फ्रांसीसी AI दिग्गज Mistral के लिए एक झटका थे। Mistral के मॉडल्स, जिनमें हालिया Medium 3.5 भी शामिल है, बेंचमार्क के निचले तीसरे हिस्से में रहे। ये निष्कर्ष Newsguard के एक पिछले अध्ययन की पुष्टि करते हैं, जिसमें Mistral के लिए 36.67 प्रतिशत गलत सूचना (misinformation) की दर दर्ज की गई थी।

Mistral की रणनीतिक स्थिति को देखते हुए यह भेद्यता विशेष रूप से महत्वपूर्ण है। अमेरिका स्थित और चीनी AI प्रदाताओं के प्राथमिक यूरोपीय विकल्प के रूप में, कंपनी वर्तमान में €20 बिलियन के मूल्यांकन पर €3 बिलियन के फंडिंग राउंड के लिए बातचीत कर रही है। एक विश्वसनीय संप्रभु AI प्रदाता के रूप में खुद को स्थापित करने वाली कंपनी के लिए, प्रचार (propaganda) को लगातार विफल करने में असमर्थता एक महत्वपूर्ण प्रतिष्ठा और तकनीकी चुनौती पेश करती है।

यह AI परिदृश्य के लिए क्यों महत्वपूर्ण है

इस बेंचमार्क का महत्व केवल सटीकता स्कोर तक ही सीमित नहीं है। "Pravda" जैसे रूसी दुष्प्रचार नेटवर्क, भविष्य के मॉडलों के तर्क को "विषैला" करने के लिए लाखों निर्मित लेखों के साथ AI प्रशिक्षण सेटों को भरने का सक्रिय रूप से काम कर रहे हैं। OpenAI द्वारा जर्मन संघीय चुनावों को प्रभावित करने के लिए ChatGPT का उपयोग करने वाले रूसी अभियानों की पहले ही पहचान कर उन्हें बंद कर दिया गया है, ऐसे में LLMs की अखंडता के लिए लड़ाई वैश्विक सूचना सुरक्षा में एक फ्रंटलाइन मुद्दा बनती जा रही है।

मुख्य बातें

Anthropic का दबदबा: Claude मॉडलों, विशेष रूप से Claude Fable 5 ने, परीक्षण किए गए अन्य सभी मॉडलों की तुलना में प्रचार के प्रति बेहतर प्रतिरोध प्रदर्शित किया।
Mistral दबाव में: अपने उच्च मूल्यांकन और यूरोपीय महत्व के बावजूद, Mistral मॉडल गलत सूचना के साथ काफी संघर्ष करते दिखे, जो अमेरिकी और चीनी प्रतिस्पर्धियों से पीछे रह गए।
प्रशिक्षण का खतरा: यह बेंचमार्क मजबूत सुरक्षा की तत्काल आवश्यकता पर प्रकाश डालता है क्योंकि राज्य-प्रायोजित अभिनेता बड़े पैमाने पर दुष्प्रचार अभियानों के माध्यम से LLM आउटपुट में हेरफेर करने का सक्रिय रूप से प्रयास कर रहे हैं।

क्या AI रूसी दुष्प्रचार का मुकाबला कर सकता है? नया बेंचमार्क विजेताओं का खुलासा करता है

क्या AI रूसी दुष्प्रचार का मुकाबला कर सकता है? नया बेंचमार्क विजेताओं का खुलासा करता है

कार्यप्रणाली: वेब एक्सेस के बिना प्रतिरोधक क्षमता का परीक्षण

दुष्प्रचार रक्षा में Anthropic सबसे आगे

Mistral की संवेदनशीलता और यूरोपीय AI के लिए जोखिम

यह AI परिदृश्य के लिए क्यों महत्वपूर्ण है

मुख्य बातें

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

अमेरिकी सरकार ने एक AI मॉडल को वापस मंगा लिया

AI रेड टीमिंग: प्रतिकूल जोखिमों से लार्ज लैंग्वेज मॉडल्स को सुरक्षित करना

LLM मतिभ्रम (hallucinations) से निपटने के लिए प्रिसिजन इंजीनियरिंग के साथ शायद $9M जुटाए