האם בינה מלאכותית יכולה לעמוד בפני תעמולה רוסית? מדד חדש חושף את המנצחים

📅3 hours ago⏱3 min read

In this article

האם בינה מלאכותית יכולה לעמוד בפני תעמולה רוסית? מדד חדש חושף את המנצחים

ככל שקמפיינים של דיסאינפורמציה הופכים למתוחכמים יותר ויותר, עולה שאלה קריטית: האם מודלי שפה גדולים (LLMs) יכולים להבחין בין עובדות לבין מניפולציה בחסות המדינה? מחקר שנערך לאחרונה על ידי המכון לשפה האסטונית סיפק תשובה קפדנית, תוך בדיקת החוסן של 60 מודלי בינה מלאכותית שונים אל מול תעמולה רוסית ממוקדת.

המתודולוגיה: בדיקת חוסן ללא גישה לאינטרנט

כדי להבטיח שהתוצאות ימדדו את יכולות ההסקה המובנות של המודלים ולא את יכולתם לגלוש ברשת החיה, החוקרים ערכו את הבדיקות ללא גישה למנועי חיפוש או לכלים חיצוניים. המדד השתמש ב-75 שאלות בשלוש שפות, אשר כוונו ספציפית ל-14 נרטיבים תעמולתיים נפרדים. נרטיבים אלו הוצגו ברמות קושי משתנות, החל מניסוח ניטרלי ועד להנחיות (prompts) מוטות ומניפולטיביות ביותר.

תהליך ההערכה היה מובנה מאוד. כל תשובה דורגה בסולם של 1 עד 5, כאשר ציון 1 מעיד על כך שהמודל נכנע לטיעוני התעמולה הרוסית וחזר עליהם. כדי לשמור על דיוק גבוה, מודל Claude Opus 4.5 מכויל שימש כשופט, והתוצאות אושרו בהמשך על ידי מומחי דיסאינפורמציה מהארגון Propastop.

Anthropic מובילה את המרוץ בהגנה מפני דיסאינפורמציה

התוצאות מדגישות פער ביצועים משמעותי בין ספקי בינה מלאכותית שונים. משפחת Claude של Anthropic הוכחה כמובילה בתעשייה בהתנגדות לדיסאינפורמציה. באופן ספציפי, Claude Fable 5 (שכרגע מוגבל מחוץ לארה"ב) השיגה ציון מוביל ומרשים של 95.2. אחריה הגיע Claude Opus 4.7 במרווח קטן, מה שמבסס את מעמדה של Anthropic כסטנדרט הזהב הנוכחי לבטיחות ויושרה עובדתית.

ביצועים בולטים נוספים כללו את Nemotron 3 של Nvidia ואת Qwen 3.6 Plus של Alibaba, ששניהם הפגינו יכולת חזקה לזהות ולדחות נרטיבים מניפולטיביים.

הפגיעות של Mistral וההימור על הבינה המלאכותית האירופית

בעוד שמודלים אמריקאיים וסיניים הראו חוזקה, התוצאות היו נסיגה עבור Mistral, מעצמת הבינה המלאכותית הצרפתית. המודלים של Mistral, כולל ה-Medium 3.5 האחרון, הגיעו לשליש התחתון של המדד. ממצאים אלו מהדהדים מחקר קודם של Newsguard שתיעד שיעור דיסאינפורמציה של 36.67 אחוזים עבור Mistral.

פגיעות זו משמעותית במיוחד בהתחשב במיקומה האסטרטגי של Mistral. כחלופה האירופית העיקרית לספקי AI מבוססי ארה"ב וסין, החברה נמצאת כעת בעיצומו של משא ומתן על סבב גיוס של 3 מיליארד אירו בשווי של 20 מיליארד אירו. עבור חברה המציבה את עצמה כספקית AI ריבונית ואמינה, חוסר היכולת לסכל תעמולה באופן עקבי מציב אתגר טכני ותדמיתי משמעותי.

מדוע זה חשוב לנוף ה-AI

המשמעויות של מבחן זה חורגות מעבר לציוני דיוק פשוטים. רשתות דיסאינפורמציה רוסיות, כגון "Pravda", פועלות באופן פעיל להציף מערכי אימון של AI במיליוני מאמרים מפוברקים כדי "להרעיל" את הלוגיקה של מודלים עתידיים. כאשר OpenAI כבר זיהתה וסגרה קמפיינים רוסיים שהשתמשו ב-ChatGPT כדי להשפיע על הבחירות הפדרליות בגרמניה, המאבק על שלמותם של LLMs הופך לסוגיה בקו החזית של אבטחת המידע העולמית.

נקודות מפתח

דומיננטיות של Anthropic: מודלי Claude, ובמיוחד Claude Fable 5, הפגינו עמידות עדיפה בפני תעמולה בהשוואה לכל שאר המודלים שנבדקו.
Mistral תחת לחץ: למרות שווי השוק הגבוה וחשיבותה האירופית, מודלי Mistral התקשו משמעותית להתמודד עם מידע כוזב, ונשארו מאחור ביחס למתחרות מארה"ב ומסין.
איום האימון: המבחן מדגיש את הצורך הדחוף בהגנות חסונות, בעוד שגורמים בחסות מדינה מנסים באופן פעיל לתמרן את הפלטים של LLM באמצעות קמפיינים מסיביים של דיסאינפורמציה.

האם בינה מלאכותית יכולה לעמוד בפני תעמולה רוסית? מדד חדש חושף את המנצחים

האם בינה מלאכותית יכולה לעמוד בפני תעמולה רוסית? מדד חדש חושף את המנצחים

המתודולוגיה: בדיקת חוסן ללא גישה לאינטרנט

Anthropic מובילה את המרוץ בהגנה מפני דיסאינפורמציה

הפגיעות של Mistral וההימור על הבינה המלאכותית האירופית

מדוע זה חשוב לנוף ה-AI

נקודות מפתח

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

𝗧𝗵𝗲 𝗨𝗦 𝗚𝗼𝘃𝗲𝗿𝗻𝗺𝗲𝗻𝘁 𝗥𝗲𝗰𝗮𝗹𝗹𝗲𝗱 𝗔𝗻 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹

AI Red Teaming: Securing Large Language Models Against Adversarial Risks

ככל הנראה מגייס 9 מיליון דולר כדי להילחם בהזיות של מודלי שפה גדולים (LLMs) באמצעות הנדסה מדויקת