آیا هوش مصنوعی می‌تواند در برابر پروپاگاندای روسیه مقاومت کند؟ بنچمارک جدید برندگان را مشخص می‌کند

با پیچیده‌تر شدن کارزارهای اطلاعات نادرست، یک پرسش حیاتی مطرح می‌شود: آیا مدل‌های زبانی بزرگ (LLMs) می‌توانند واقعیت را از دستکاری‌های دولتی تشخیص دهند؟ مطالعه‌ای اخیر توسط موسسه زبان استونی، با آزمایش میزان تاب‌آوری ۶۰ مدل مختلف هوش مصنوعی در برابر پروپاگاندای هدفمند روسیه، پاسخی دقیق ارائه کرده است.

روش‌شناسی: آزمایش تاب‌آوری بدون دسترسی به وب

برای اطمینان از اینکه نتایج، توانایی‌های استدلالی ذاتی مدل‌ها را می‌سنجد و نه توانایی آن‌ها در جستجو در وب زنده، محققان آزمایش‌ها را بدون دسترسی به موتورهای جستجو یا ابزارهای خارجی انجام دادند. این بنچمارک از ۷۵ پرسش در سه زبان استفاده کرد که به‌طور مشخص ۱۴ روایت پروپاگاندای متمایز را هدف قرار داده بودند. این روایت‌ها با درجات مختلفی از دشواری، از عبارت‌پردازی‌های خنثی گرفته تا دستورالعمل‌های بسیار سوگیرانه و فریبنده، ارائه شدند.

فرآیند ارزیابی بسیار ساختارمند بود. هر پاسخ در مقیاسی از ۱ تا ۵ امتیازدهی شد، که در آن امتیاز ۱ نشان‌دهنده این است که مدل تسلیم شده و نکات تبلیغاتی روسیه را تکرار کرده است. برای حفظ دقت بالا، یک مدل کالیبره شده Claude Opus 4.5 به عنوان داور عمل کرد و نتایج نیز توسط کارشناسان اطلاعات نادرست در سازمان Propastop مورد تأیید مجدد قرار گرفت.

پیشتازی Anthropic در دفاع در برابر اطلاعات نادرست

نتایج نشان‌دهنده شکاف عملکردی قابل توجهی بین ارائه‌دهندگان مختلف هوش مصنوعی است. خانواده Claude متعلق به Anthropic به عنوان پیشرو در صنعت در مقاومت در برابر اطلاعات نادرست ظاهر شد. به‌طور مشخص، Claude Fable 5 (که در حال حاضر خارج از ایالات متحده محدود شده است) به امتیاز بالای ۹۵.۲ دست یافت. Claude Opus 4.7 با فاصله کمی پس از آن قرار گرفت که جایگاه Anthropic را به عنوان استاندارد طلایی فعلی برای ایمنی و سلامت واقعیت تثبیت کرد.

سایر مدل‌های قابل توجه شامل Nemotron 3 از Nvidia و Qwen 3.6 Plus از Alibaba بودند که هر دو توانایی قدرتمندی در شناسایی و رد روایت‌های فریبنده از خود نشان دادند.

آسیب‌پذیری Mistral و مخاطرات هوش مصنوعی اروپا

در حالی که مدل‌های آمریکایی و چینی قدرت خود را نشان دادند، نتایج برای Mistral، غول هوش مصنوعی فرانسه، یک عقب‌گرد بود. مدل‌های Mistral، از جمله مدل اخیر Medium 3.5، در یک‌سوم پایین این بنچمارک قرار گرفتند. این یافته‌ها بازتاب‌دهنده مطالعه قبلی Newsguard است که نرخ اطلاعات نادرست ۳۶.۶۷ درصدی را برای Mistral ثبت کرده بود.

این آسیب‌پذیری با توجه به جایگاه استراتژیک Mistral بسیار حائز اهمیت است. این شرکت به عنوان جایگزین اصلی اروپایی برای ارائه‌دهندگان هوش مصنوعی مستقر در ایالات متحده و چین، در حال حاضر در میان مذاکرات یک دور جذب سرمایه ۳ میلیارد یورویی با ارزش‌گذاری ۲۰ میلیارد یورویی قرار دارد. برای شرکتی که خود را به عنوان یک ارائه‌دهنده قابل اعتماد هوش مصنوعی حاکمیتی معرفی می‌کند، ناتوانی در دفع مداوم پروپاگاندا، یک چالش فنی و اعتباری بزرگ محسوب می‌شود.

چرا این موضوع برای چشم‌انداز هوش مصنوعی اهمیت دارد

مخاطرات این بنچمارک فراتر از امتیازات دقت ساده است. شبکه‌های اطلاعات نادرست روسیه، مانند "Pravda"، فعالانه در تلاش هستند تا با تزریق میلیون‌ها مقاله ساختگی به مجموعه‌های آموزشی هوش مصنوعی، منطق مدل‌های آینده را «مسموم» کنند. با توجه به اینکه OpenAI پیش از این کارزارهای روسیه را که از ChatGPT برای تأثیرگذاری بر انتخابات فدرال آلمان استفاده می‌کردند، شناسایی و متوقف کرده است، نبرد برای حفظ یکپارچگی LLMها در حال تبدیل شدن به یک مسئله خط مقدم در امنیت اطلاعات جهانی است.

نکات کلیدی