Google DeepMind תומכת בקרן של 10 מיליון דולר לפתרון סיכוני בטיחות של בינה מלאכותית רב-סוכנית

ככל שסוכני בינה מלאכותית (AI agents) מתפתחים מצ'אטבוטים פשוטים לישויות אוטונומיות המסוגלות לבצע משימות מורכבות, מתעוררת חזית חדשה של סיכון מערכתי. Google DeepMind ומספר שותפים גלובליים השיקו יוזמה מאסיבית לחקר ההתנהגויות הבלתי צפויות שנוצרות כאשר מיליוני סוכנים אוטונומיים אלו מתחילים לתקשר בעולם האמיתי.

בעיית הרב-סוכנות (Multi-Agent): מעבר לבטיחות של מודל בודד

במשך חלק ניכר מהעידן הנוכחי של הבינה המלאכותית, המחקר התמקד בבטיחות של מודלים בודדים — הבטחה שמודל שפה גדול (LLM) ספציפי לא יפיק תוכן רעיל או לא יבצע הנחיות (prompts) זדוניות. עם זאת, Google DeepMind ושותפיה מבינים שהאתגר האמיתי טמון ב"מערכות רב-סוכניות" (multi-agent systems).

כאשר מספר גדול של סוכנים נפרסים בכל רחבי הכלכלה, הם יוצרים מערכת אקולוגית מורכבת שבה ההתנהגות הקולקטיבית יכולה להיות שונה בתכלית מסכום חלקיה. "תודעה קולקטיבית של סוכנים" (agent hive mind) זו עלולה להוביל פוטנציאלית לאינטליגנציה מתהווה (emergent intelligence) או, באופן מדאיג יותר, לכאוס מתהווה. מומחים מזהירים כי לא ניתן לחזות תוצאות אלו באמצעות חקר מודלים מבודדים; במקום זאת, חוקרים חייבים להשתמש בסימולציות ריאליסטיות ורחבות היקף כדי לצפות כיצד סוכנים מתקשרים, מתחרים או משתפים פעולה בשוגג ב"ארגזי חול" (sandboxes) דיגיטליים.

קואליציה של 10 מיליון דולר למחקר אקדמי

כדי לגשר על פער זה, Google DeepMind אספה קואליציה עוצמתית שתספק מימון של 10 מיליון דולר לחוקרים. השותפות כוללת את Schmidt Sciences (קרן פילנתרופית בהובלת אריק וונדי שמידט), ARIA (סוכנות ה-"moonshot" של ממשלת בריטניה), קרן Cooperative AI ו-Google.org.

המטרה האסטרטגית היא להוציא את המחקר אל מחוץ לחומות של מעבדות הטכנולוגיה הגדולות ולהעבירו לאקדמיה. בעוד שמובילות בתעשייה כמו Google ו-Anthropic בונות את הטכנולוגיה, לחוקרים אקדמיים יש את החופש להביט רחוק יותר אל העתיד ולחקור סיכונים מערכתיים ארוכי טווח שעשויים שלא להיות בעדיפות מיידית עבור מחזורי מוצרים מסחריים. מימון זה נועד לבנות את תחום היסוד של "בטיחות רב-סוכנית" (multi-agent safety), שאינו קיים כיום.

מהזרקות הנחיות (Prompt Injections) לאנרכיה דיגיטלית

הסיכונים הקשורים למערכות רב-סוכניות אינם רק תיאורטיים; הם גרסאות מוגברות של איומי סייבר קיימים. החששות המרכזיים כוללים:

  • הזרקות פרומפט מתקדמות: סוכן עלול להי"חטף" על ידי משפט זדוני בודד הטמון בתוך מסמך, מה שהופך עוזר מועיל לתוכנה זדונית (malware) המונעת בעצמה.
  • הונאות ותקיפות סייבר אוטומטיות: סוכנים בעלי יכולת חשיבה ואימפרוביזציה יכולים לבצע ניסיונות הנדסה חברתית או פריצה מורכבים ורב-שלביים בקנה מידה רחב.
  • חוסר יציבות מערכתית: כשם שמוסדות אנושיים יכולים לגרום לשינויים כלכליים בלתי צפויים, פריסה מאסיבית של סוכנים אוטונומיים עלולה להוביל ל"אנרכיה" דיגיטלית או לחוסר יציבות בשוק.

בניגוד לתוכנה מסורתית, העוקבת אחר נתיבים קבועים שנכתבו על ידי בני אדם, סוכני AI חושבים ומבצעים אימפרוביזציה. חוסר הוודאות הזה מחייב מעבר למסגרות עבודה של "zero trust" — גישה שמובילה חברת Anthropic — שבה כל סוכן נחשב כנקודת תורפה פוטנציאלית.

נקודות מרכזיות

  • יוזמת מימון חדשה: Google DeepMind ושותפיה התחייבו להקצות 10 מיליון דולר למימון מחקר אקדמי על התנהגויות בלתי צפויות של סוכני AI המקיימים אינטראקציה זה עם זה.
  • סיכונים מתהווים: החשש העיקרי הוא שמיליוני סוכנים אוטונומיים עלולים ליצור סיכונים מערכתיים, כגון תקיפות סייבר אוטומטיות והתנהגויות של "hive mind", שלא ניתן לחזות על ידי בדיקת מודלים בודדים.
  • שינוי בפרדיגמות אבטחה: ככל שהסוכנים עוברים מתוכנה קבועה לישויות בעלות יכולת חשיבה, התעשייה עוברת למודלים של "zero trust" כדי לצמצם את הסיכונים של חטיפה והזרקת פרומפטים.