האם בינה מלאכותית יכולה לעמוד בפני תעמולה רוסית? מדד חדש חושף את המנצחים
ככל שקמפיינים של דיסאינפורמציה הופכים למתוחכמים יותר ויותר, עולה שאלה קריטית: האם מודלי שפה גדולים (LLMs) יכולים להבחין בין עובדות לבין מניפולציה בחסות המדינה? מחקר שנערך לאחרונה על ידי המכון לשפה האסטונית סיפק תשובה קפדנית, תוך בדיקת החוסן של 60 מודלי בינה מלאכותית שונים אל מול תעמולה רוסית ממוקדת.
המתודולוגיה: בדיקת חוסן ללא גישה לאינטרנט
כדי להבטיח שהתוצאות ימדדו את יכולות ההסקה המובנות של המודלים ולא את יכולתם לגלוש ברשת החיה, החוקרים ערכו את הבדיקות ללא גישה למנועי חיפוש או לכלים חיצוניים. המדד השתמש ב-75 שאלות בשלוש שפות, אשר כוונו ספציפית ל-14 נרטיבים תעמולתיים נפרדים. נרטיבים אלו הוצגו ברמות קושי משתנות, החל מניסוח ניטרלי ועד להנחיות (prompts) מוטות ומניפולטיביות ביותר.
תהליך ההערכה היה מובנה מאוד. כל תשובה דורגה בסולם של 1 עד 5, כאשר ציון 1 מעיד על כך שהמודל נכנע לטיעוני התעמולה הרוסית וחזר עליהם. כדי לשמור על דיוק גבוה, מודל Claude Opus 4.5 מכויל שימש כשופט, והתוצאות אושרו בהמשך על ידי מומחי דיסאינפורמציה מהארגון Propastop.
Anthropic מובילה את המרוץ בהגנה מפני דיסאינפורמציה
התוצאות מדגישות פער ביצועים משמעותי בין ספקי בינה מלאכותית שונים. משפחת Claude של Anthropic הוכחה כמובילה בתעשייה בהתנגדות לדיסאינפורמציה. באופן ספציפי, Claude Fable 5 (שכרגע מוגבל מחוץ לארה"ב) השיגה ציון מוביל ומרשים של 95.2. אחריה הגיע Claude Opus 4.7 במרווח קטן, מה שמבסס את מעמדה של Anthropic כסטנדרט הזהב הנוכחי לבטיחות ויושרה עובדתית.
ביצועים בולטים נוספים כללו את Nemotron 3 של Nvidia ואת Qwen 3.6 Plus של Alibaba, ששניהם הפגינו יכולת חזקה לזהות ולדחות נרטיבים מניפולטיביים.
הפגיעות של Mistral וההימור על הבינה המלאכותית האירופית
בעוד שמודלים אמריקאיים וסיניים הראו חוזקה, התוצאות היו נסיגה עבור Mistral, מעצמת הבינה המלאכותית הצרפתית. המודלים של Mistral, כולל ה-Medium 3.5 האחרון, הגיעו לשליש התחתון של המדד. ממצאים אלו מהדהדים מחקר קודם של Newsguard שתיעד שיעור דיסאינפורמציה של 36.67 אחוזים עבור Mistral.
פגיעות זו משמעותית במיוחד בהתחשב במיקומה האסטרטגי של Mistral. כחלופה האירופית העיקרית לספקי AI מבוססי ארה"ב וסין, החברה נמצאת כעת בעיצומו של משא ומתן על סבב גיוס של 3 מיליארד אירו בשווי של 20 מיליארד אירו. עבור חברה המציבה את עצמה כספקית AI ריבונית ואמינה, חוסר היכולת לסכל תעמולה באופן עקבי מציב אתגר טכני ותדמיתי משמעותי.
מדוע זה חשוב לנוף ה-AI
המשמעויות של מבחן זה חורגות מעבר לציוני דיוק פשוטים. רשתות דיסאינפורמציה רוסיות, כגון "Pravda", פועלות באופן פעיל להציף מערכי אימון של AI במיליוני מאמרים מפוברקים כדי "להרעיל" את הלוגיקה של מודלים עתידיים. כאשר OpenAI כבר זיהתה וסגרה קמפיינים רוסיים שהשתמשו ב-ChatGPT כדי להשפיע על הבחירות הפדרליות בגרמניה, המאבק על שלמותם של LLMs הופך לסוגיה בקו החזית של אבטחת המידע העולמית.
נקודות מפתח
- דומיננטיות של Anthropic: מודלי Claude, ובמיוחד Claude Fable 5, הפגינו עמידות עדיפה בפני תעמולה בהשוואה לכל שאר המודלים שנבדקו.
- Mistral תחת לחץ: למרות שווי השוק הגבוה וחשיבותה האירופית, מודלי Mistral התקשו משמעותית להתמודד עם מידע כוזב, ונשארו מאחור ביחס למתחרות מארה"ב ומסין.
- איום האימון: המבחן מדגיש את הצורך הדחוף בהגנות חסונות, בעוד שגורמים בחסות מדינה מנסים באופן פעיל לתמרן את הפלטים של LLM באמצעות קמפיינים מסיביים של דיסאינפורמציה.