Sakana AI משיקה את Fugu לניהול אינטליגנציה מרובת-LLM

חברת Sakana AI שבסיסה בטוקיו חשפה את Fugu, מנהל (orchestrator) מתוחכם של מודלים מרובי-LLM, שנועד לתאם מאגר של מודלים מתמחים לפתרון משימות מורכבות. על ידי פעולה כשכבה אינטליגנטית אחת, Fugu שואפת להתחרות בביצועים של מובילות בתעשייה כמו Anthropic, תוך שהיא מציעה גידור אסטרטגי מפני תלות בספק (vendor lock-in).

ממשק מאוחד עבור מאגר סוכנים הניתן להחלפה

Fugu אינו רק מודל שפה גדול נוסף ועצמאי; זהו מודל שפה שאומן במיוחד לניהול "מאגר סוכנים" (agent pool). עבור המשתמש הקצה, המערכת מתפקדת כישות אחת באמצעות API תואם OpenAI. עם זאת, מבחינה פנימית, Fugu מבצעת מחזור מורכב של בחירה, האצלה, ביצוע, בדיקה וסינתזה. בהתאם למורכבות הפרומפט, Fugu עשויה לפתור את הבעיה לבדה או לגייס באופן דינמי "צוות" של מודלים מתמחים — כולל עותקים של עצמה — כדי להתמודד עם עומס העבודה.

Sakana AI מציעה שתי גרסאות נפרדות כדי לענות על צרכים מקצועיים שונים:

  • Fugu Base: מותאם לשהיה נמוכה (low latency) ולמשימות יומיומיות כגון אינטראקציות עם צ'אטבוטים וסקירות קוד סטנדרטיות.
  • Fugu Ultra: תוכנן לאיכות הסקה (reasoning) מקסימלית, ומיועד לתהליכי עבודה בעלי סיכון גבוה כמו שחזור מאמרים מדעיים, ניתוח אבטחת סייבר וחיפוש פטנטים.

עקיפת מודלי הקצה (Frontier Models) במדדי ביצוע

מדדי הביצוע של Fugu Ultra הם מרשימים, ומציבים אותה בתחרות ישירה עם Fable 5 ו-Mythos Preview המצופים מאוד של Anthropic. ראוי לציין כי Fugu Ultra משיגה את הציונים הללו באמצעות מאגר שאינו כולל את המודלים של Anthropic, מה שמרמז על פוטנציאל גבוה אף יותר אם סוכנים אלו היו משולבים.

בבדיקות קפדניות, Fugu Ultra הפגינה יכולות עדיפות במספר מדדי ביצוע טכניים מרכזיים:

  • SWE Bench Pro: Fugu Ultra קיבלה ציון של 73.7, תוך עקיפה משמעותית של GPT 5.5 (58.6) ו-Gemini 3.1 Pro (54.2).
  • LiveCodeBench: Fugu Ultra הגיעה ל-93.2, ועקפה את Opus 4.8 (87.8) ו-GPT 5.5 (85.3).
  • Humanity's Last Exam: המודל השיג 50.0, תוך עקיפה קלה של Opus 4.8 (49.8).
  • GPQA-D: Fugu Ultra השתוותה לסטנדרט הגבוה של 95.5.

בודקי בטא מוקדמים דיווחו על שיפורים עצומים ביעילות בתחומים מתמחים. מפתח אחד ציין כי במהלך סקירות קוד, Fugu Ultra זיהתה למעלה מ-20 באגים, בעוד ש-GPT-5.5 סימנה רק כשלשה.

הפחתת הסיכונים של תלות בספק AI (Vendor Lock-in)

מעבר לביצועים טהורים, Sakana AI ממצבת את Fugu ככלי קריטי לריבונות דיגיטלית. בעידן שבו בקרות ייצוא ושינויים רגולטוריים עלולים להגביל בפתאומיות את הגישה למודלים ספציפיים (כמו ההגבלות האחרונות של Anthropic), הסתמכות על ספק יחיד מהווה פגיעות מהותית עבור מגזרים כמו פיננסים, ממשל ותשתיות קריטיות.

מכיוון ש-Fugu משתמשת במאגר סוכנים הניתן להחלפה, ארגונים יכולים להפנות מחדש את תהליכי העבודה שלהם לספקים שונים אם API מסוים מפסיק לפעול. למרות שזה אינו פתרון מוחלט ל"ריבונות AI" — שכן הגבלה רחבה בתעשייה כולה עדיין עלולה להגביל את המאגר — זה מספק שכבת חוסן חיונית עבור ארגונים המבקשים לגוון את התלות שלהם ב-AI.

נקודות מרכזיות

  • ניהול דינמי (Dynamic Orchestration): Fugu מתפקדת כ-API יחיד המנהל פנימית צוות של מודלים מתמחים לפתרון בעיות מורכבות ורב-שלביות.
  • דומיננטיות במדדי ביצוע: Fugu Ultra מתחרה ישירות ב-Fable 5 ו-Mythos של Anthropic, ומציגה יתרון משמעותי במדדי תכנות (SWE Bench Pro) והסקה.
  • חוסן אסטרטגי: מאגר המודלים הניתן להחלפה מאפשר למשתמשים להפחית את הסיכונים של תלות בספק ושיבושים רגולטוריים על ידי גיוון ספקי ה-AI.