کیا اے آئی روسی پروپیگنڈا کا مقابلہ کر سکتا ہے؟ نیا بینچ مارک فاتحین کا انکشاف کرتا ہے

📅3 hours ago⏱3 min read

In this article

کیا AI روسی پروپیگنڈا کا مقابلہ کر سکتا ہے؟ نیا بینچ مارک فاتحین کو ظاہر کرتا ہے

جیسے جیسے غلط معلومات (disinformation) کی مہمات مزید پیچیدہ ہوتی جا رہی ہیں، ایک اہم سوال ابھرتا ہے: کیا بڑے لسانی ماڈلز (LLMs) حقائق اور ریاست کی حمایت یافتہ ہیرا پھیری کے درمیان فرق کر سکتے ہیں؟ Institute of the Estonian Language کی ایک حالیہ تحقیق نے 60 مختلف AI ماڈلز کی روسی پروپیگنڈا کے خلاف مضبوطی کا امتحان لے کر ایک جامع جواب فراہم کیا ہے۔

طریقہ کار: ویب تک رسائی کے بغیر مضبوطی کا امتحان

اس بات کو یقینی بنانے کے لیے کہ نتائج ماڈلز کی لائیو ویب براؤز کرنے کی صلاحیت کے بجائے ان کی فطری استدلال کی صلاحیتوں کی پیمائش کریں، محققین نے سرچ انجنوں یا بیرونی ٹولز تک رسائی کے بغیر یہ ٹیسٹ کیے۔ اس بینچ مارک میں تین زبانوں میں 75 سوالات استعمال کیے گئے، جن کا خاص مقصد 14 مختلف پروپیگنڈا بیانیے (narratives) تھے۔ یہ بیانیے مختلف درجات کی مشکل میں پیش کیے گئے، جن میں غیر جانبدارانہ جملہ سازی سے لے کر انتہائی متعصبانہ اور ہیرا پھیری والے پرامپٹس (prompts) تک شامل تھے۔

جانچ کا عمل انتہائی منظم تھا۔ ہر جواب کو 1 سے 5 کے پیمانے پر نمبر دیے گئے، جہاں 1 کا اسکور اس بات کی نشاندہی کرتا ہے کہ ماڈل روسی بیانیے کے سامنے جھک گیا اور اسے دہرایا۔ اعلیٰ درستگی برقرار رکھنے کے لیے، ایک کیلیبریٹڈ Claude Opus 4.5 نے جج کے طور پر کام کیا، جبکہ نتائج کی مزید تصدیق تنظیم Propastop کے غلط معلومات کے ماہرین نے کی۔

غلط معلومات کے دفاع میں Anthropic سب سے آگے

نتائج مختلف AI فراہم کنندگان کے درمیان کارکردگی کے ایک بڑے فرق کو اجاگر کرتے ہیں۔ غلط معلومات کا مقابلہ کرنے میں Anthropic کی Claude فیملی انڈسٹری میں لیڈر کے طور پر ابھری ہے۔ خاص طور پر، Claude Fable 5 (جو فی الحال امریکہ سے باہر محدود ہے) نے 95.2 کا شاندار ٹاپ اسکور حاصل کیا۔ اس کے فوراً بعد Claude Opus 4.7 کا نمبر آیا، جس نے حفاظت اور حقائق کی سالمیت کے لیے Anthropic کے مقام کو موجودہ اعلیٰ ترین معیار کے طور پر مستحکم کر دیا۔

دیگر نمایاں کارکردگی دکھانے والوں میں Nvidia کا Nemotron 3 اور Alibaba کا Qwen 3.6 Plus شامل تھے، دونوں نے ہیرا پھیری والے بیانیوں کی شناخت کرنے اور انہیں مسترد کرنے کی مضبوط صلاحیت کا مظاہرہ کیا۔

Mistral کی کمزوری اور یورپی AI کے لیے خطرات

اگرچہ امریکی اور چینی ماڈلز نے مضبوطی دکھائی، لیکن یہ نتائج فرانسیسی AI پاور ہاؤس Mistral کے لیے ایک دھچکا تھے۔ Mistral کے ماڈلز، بشمول حالیہ Medium 3.5، بینچ مارک کے نچلے تیسرے حصے میں رہے۔ یہ نتائج Newsguard کی ایک سابقہ تحقیق کی عکاسی کرتے ہیں جس میں Mistral کے لیے 36.67 فیصد غلط معلومات کی شرح ریکارڈ کی گئی تھی۔

Mistral کی تزویراتی حیثیت کے پیش نظر یہ کمزوری خاص طور پر اہم ہے۔ امریکہ میں قائم اور چینی AI فراہم کنندگان کے بنیادی یورپی متبادل کے طور پر، کمپنی اس وقت 20 ارب یورو کی ویلیویشن پر 3 ارب یورو کے فنڈنگ راؤنڈ کے لیے مذاکرات کر رہی ہے۔ ایک ایسی کمپنی کے لیے جو خود کو ایک قابل اعتماد خود مختار AI فراہم کنندہ کے طور پر پیش کر رہی ہے، پروپیگنڈا کو مستقل طور پر روکنے میں ناکامی شہرت اور تکنیکی لحاظ سے ایک بڑا چیلنج ہے۔

یہ AI کے منظر نامے کے لیے کیوں اہم ہے

اس بینچ مارک کی اہمیت محض درستگی کے اسکورز تک محدود نہیں ہے۔ روسی غلط معلومات پھیلانے والے نیٹ ورکس، جیسے کہ "Pravda"، مستقبل کے ماڈلز کی منطق کو "زہر آلود" کرنے کے لیے لاکھوں مصنوعی مضامین کے ذریعے AI ٹریننگ سیٹس کو بھرنے کے لیے سرگرم عمل ہیں۔ چونکہ OpenAI پہلے ہی جرمن وفاقی انتخابات کو متاثر کرنے کے لیے ChatGPT استعمال کرنے والی روسی مہمات کی نشاندہی اور انہیں بند کر چکا ہے، اس لیے LLMs کی سالمیت کی جنگ عالمی معلوماتی تحفظ میں ایک اہم ترین مسئلہ بنتی جا رہی ہے۔

اہم نکات

Anthropic کا غلبہ: Claude ماڈلز، خاص طور پر Claude Fable 5 نے، تمام دیگر آزمائے گئے ماڈلز کے مقابلے میں پروپیگنڈا کے خلاف بہتر مزاحمت کا مظاہرہ کیا۔
Mistral دباؤ میں: اپنی بلند ویلیویشن اور یورپی اہمیت کے باوجود، Mistral ماڈلز غلط معلومات کے حوالے سے کافی مشکلات کا شکار رہے اور امریکی اور چینی حریفوں سے پیچھے رہ گئے۔
تربیت کا خطرہ: یہ بینچ مارک مضبوط دفاع کی فوری ضرورت کو اجاگر کرتا ہے کیونکہ ریاستی سرپرستی میں کام کرنے والے عناصر بڑے پیمانے پر غلط معلومات کی مہمات کے ذریعے LLM کے نتائج میں ہیرا پھیری کرنے کی بھرپور کوشش کر رہے ہیں۔

کیا اے آئی روسی پروپیگنڈا کا مقابلہ کر سکتا ہے؟ نیا بینچ مارک فاتحین کا انکشاف کرتا ہے

کیا AI روسی پروپیگنڈا کا مقابلہ کر سکتا ہے؟ نیا بینچ مارک فاتحین کو ظاہر کرتا ہے

طریقہ کار: ویب تک رسائی کے بغیر مضبوطی کا امتحان

غلط معلومات کے دفاع میں Anthropic سب سے آگے

Mistral کی کمزوری اور یورپی AI کے لیے خطرات

یہ AI کے منظر نامے کے لیے کیوں اہم ہے

اہم نکات

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

امریکی حکومت نے ایک اے آئی ماڈل کو واپس بلا لیا

اے آئی ریڈ ٹیمنگ: لارج لینگویج ماڈلز کو مخالفانہ خطرات سے محفوظ بنانا

غالباً درست انجینئرنگ کے ذریعے LLM کے ہیلو سینیشنز (Hallucinations) کا مقابلہ کرنے کے لیے 9 ملین ڈالر جمع کیے