آیا هوش مصنوعی میتواند در برابر پروپاگاندای روسیه مقاومت کند؟ بنچمارک جدید برندگان را مشخص میکند
با پیچیدهتر شدن کارزارهای اطلاعات نادرست، یک پرسش حیاتی مطرح میشود: آیا مدلهای زبانی بزرگ (LLMs) میتوانند واقعیت را از دستکاریهای دولتی تشخیص دهند؟ مطالعهای اخیر توسط موسسه زبان استونی، با آزمایش میزان تابآوری ۶۰ مدل مختلف هوش مصنوعی در برابر پروپاگاندای هدفمند روسیه، پاسخی دقیق ارائه کرده است.
روششناسی: آزمایش تابآوری بدون دسترسی به وب
برای اطمینان از اینکه نتایج، تواناییهای استدلالی ذاتی مدلها را میسنجد و نه توانایی آنها در جستجو در وب زنده، محققان آزمایشها را بدون دسترسی به موتورهای جستجو یا ابزارهای خارجی انجام دادند. این بنچمارک از ۷۵ پرسش در سه زبان استفاده کرد که بهطور مشخص ۱۴ روایت پروپاگاندای متمایز را هدف قرار داده بودند. این روایتها با درجات مختلفی از دشواری، از عبارتپردازیهای خنثی گرفته تا دستورالعملهای بسیار سوگیرانه و فریبنده، ارائه شدند.
فرآیند ارزیابی بسیار ساختارمند بود. هر پاسخ در مقیاسی از ۱ تا ۵ امتیازدهی شد، که در آن امتیاز ۱ نشاندهنده این است که مدل تسلیم شده و نکات تبلیغاتی روسیه را تکرار کرده است. برای حفظ دقت بالا، یک مدل کالیبره شده Claude Opus 4.5 به عنوان داور عمل کرد و نتایج نیز توسط کارشناسان اطلاعات نادرست در سازمان Propastop مورد تأیید مجدد قرار گرفت.
پیشتازی Anthropic در دفاع در برابر اطلاعات نادرست
نتایج نشاندهنده شکاف عملکردی قابل توجهی بین ارائهدهندگان مختلف هوش مصنوعی است. خانواده Claude متعلق به Anthropic به عنوان پیشرو در صنعت در مقاومت در برابر اطلاعات نادرست ظاهر شد. بهطور مشخص، Claude Fable 5 (که در حال حاضر خارج از ایالات متحده محدود شده است) به امتیاز بالای ۹۵.۲ دست یافت. Claude Opus 4.7 با فاصله کمی پس از آن قرار گرفت که جایگاه Anthropic را به عنوان استاندارد طلایی فعلی برای ایمنی و سلامت واقعیت تثبیت کرد.
سایر مدلهای قابل توجه شامل Nemotron 3 از Nvidia و Qwen 3.6 Plus از Alibaba بودند که هر دو توانایی قدرتمندی در شناسایی و رد روایتهای فریبنده از خود نشان دادند.
آسیبپذیری Mistral و مخاطرات هوش مصنوعی اروپا
در حالی که مدلهای آمریکایی و چینی قدرت خود را نشان دادند، نتایج برای Mistral، غول هوش مصنوعی فرانسه، یک عقبگرد بود. مدلهای Mistral، از جمله مدل اخیر Medium 3.5، در یکسوم پایین این بنچمارک قرار گرفتند. این یافتهها بازتابدهنده مطالعه قبلی Newsguard است که نرخ اطلاعات نادرست ۳۶.۶۷ درصدی را برای Mistral ثبت کرده بود.
این آسیبپذیری با توجه به جایگاه استراتژیک Mistral بسیار حائز اهمیت است. این شرکت به عنوان جایگزین اصلی اروپایی برای ارائهدهندگان هوش مصنوعی مستقر در ایالات متحده و چین، در حال حاضر در میان مذاکرات یک دور جذب سرمایه ۳ میلیارد یورویی با ارزشگذاری ۲۰ میلیارد یورویی قرار دارد. برای شرکتی که خود را به عنوان یک ارائهدهنده قابل اعتماد هوش مصنوعی حاکمیتی معرفی میکند، ناتوانی در دفع مداوم پروپاگاندا، یک چالش فنی و اعتباری بزرگ محسوب میشود.
چرا این موضوع برای چشمانداز هوش مصنوعی اهمیت دارد
مخاطرات این بنچمارک فراتر از امتیازات دقت ساده است. شبکههای اطلاعات نادرست روسیه، مانند "Pravda"، فعالانه در تلاش هستند تا با تزریق میلیونها مقاله ساختگی به مجموعههای آموزشی هوش مصنوعی، منطق مدلهای آینده را «مسموم» کنند. با توجه به اینکه OpenAI پیش از این کارزارهای روسیه را که از ChatGPT برای تأثیرگذاری بر انتخابات فدرال آلمان استفاده میکردند، شناسایی و متوقف کرده است، نبرد برای حفظ یکپارچگی LLMها در حال تبدیل شدن به یک مسئله خط مقدم در امنیت اطلاعات جهانی است.
نکات کلیدی
- تسلط Anthropic: مدلهای Claude، بهویژه Claude Fable 5، در مقایسه با تمام مدلهای آزمایششده دیگر، مقاومت برتری در برابر پروپاگاندا نشان دادند.
- فشار بر Mistral: علیرغم ارزشگذاری بالا و اهمیت اروپایی، مدلهای Mistral در مواجهه با اطلاعات نادرست با دشواریهای زیادی روبرو شدند و از رقبای آمریکایی و چینی عقب ماندند.
- تهدید آموزشی: این بنچمارک بر نیاز مبرم به دفاعهای قدرتمند تأکید میکند، چرا که بازیگران تحت حمایت دولتها فعالانه تلاش میکنند تا از طریق کارزارهای گسترده اطلاعات نادرست، خروجیهای LLM را دستکاری کنند.