רק שלושה מודלי AI שרדו את סימולציית הסטארט-אפ בת 500 הימים

סוכני AI כיום מצטיינים במשימות בדידות, אך הם מתקשים בחשיבה האסטרטגית המורכבת לטווח ארוך הנדרשת לניהול עסק. מדד ביצועים (benchmark) חדש בשם CEO-Bench חושף כי בעוד שרוב מודלי השפה הגדולים (LLMs) פושטים רגל תוך 500 ימי סימולציה, מספר מצומצם מתחיל להפגין סימנים של "בינה מכוונת" (steering intelligence).

הכירו את CEO-Bench: המבחן האולטימטיבי לאינטליגנציה אסטרטגית

חוקרים התקדמו מעבר לבדיקות prompting פשוטות כדי לפתח את CEO-Bench, סימולציה קפדנית שנועדה למדוד את יכולתו של סוכן להוביל ארגון שלם לעבר מטרות ארוכות טווח. במדד זה, סוכן AI מקבל שליטה על "NovaMind", חברת תוכנה מבוססת מנוי בדיונית, עם הון התחלתי של מיליון דולר וכלל לקוחות אפס.

הסביבה עוצבה כדי לחקות את התנודתיות של העולם האמיתי. הסוכנים מקיימים אינטראקציה עם Python API הכולל 34 כלים ומסד נתונים של 19 טבלאות, מה שמחייב אותם לכתוב קוד מותאם אישית ושאילתות SQL כדי לקבל החלטות. הסיכון גבוה: אם יתרת המזומנים של החברה יורדת מתחת לאפס בכל נקודה במהלך תקופת 500 הימים, הסימולציה מסתיימת בפשיטת רגל.

המורכבות נובעת מלולאות משוב מושהות (delayed feedback loops). בניגוד לסוכנים מוכווני משימה, מנכ"ל חייב לנווט בין לוחות זמנים של מחקר ופיתוח (R&D), מחזורי שוק וציפיות לקוחות משתנות. החלטות שמתקבלות ביום ה-10 — כמו הוצאות פרסום או רמות תמחור — עשויות שלא להניב תוצאות נראות לעין בצמיחה במספר המנויים או בתזרים המזומנים עד שבועות לאחר מכן.

משבר פשיטת הרגל: מדוע רוב המודלים נכשלים

תוצאות המבחן שכלל 14 מודלים היו מרתיעות. בעוד שרוב המודלים יכלו לבצע פקודות בסיסיות, חסרה להם האסטרטגיה הארוכת-טווח העקבית הנדרשת כדי לשמור על כושר פירעון. רוב הסוכנים נכשלו בניווט בחוסר הוודאות של השוק ופשטו רגל לפני תום 500 הימים.

בהשוואה מרשימה, היוריסטיקה פשוטה מבוססת חוקים — תוכנה שאינה מבוססת AI המשתמשת בתמחור קבוע ובהתאמות קיבולת בסיסיות — הגיעה ל-15.76 מיליון דולר. תוצאה זו עלתה על כמעט כל LLM שנבדק, מה שמוכיח ש"אינטליגנציה" ללא כיוון היא לרוב נחותה מתוכנית עסקית בסיסית וממושמעת.

שלושת העלית: Claude ו-GPT מובילים את המקצה

רק שלושה מודלים הצליחו לסיים את ההרצה שלהם עם יותר מהמיליון דולר שהיו כהון התחלתי. מודלים אלו הפגינו יכולת לחשוף מידע נסתר ולחזות תזרימי מזומנים עתידיים:

  • Claude Fable 5: הביצועים הטובים ביותר, שהגיעו לסכום מדהים של 47.15 מיליון דולר והפגינו את העקביות הגבוהה ביותר לאורך הרצות מרובות.
  • Claude Opus 4.8: הגיע ל-27.8 מיליון דולר, והפגין תחכום ברמה גבוהה על ידי בניית סימולציה פנימית משלו למידול קבוצות לקוחות (customer cohorts).
  • GPT-5.5: הגיע ל-21.3 מיליון דולר, והצליח על ידי ניתוח היסטוריית משא ומתן כדי לחשוף העדפות לקוחות נסתרות.

באופן מעניין, המודלים השתמשו בדרכים שונות להשגת הצלחה. בעוד ש-Opus 4.8 התמקד ברכישת לקוחות אגרסיבית בשלב מוקדם, GPT-5.5 נתן עדיפות לשמירה על בסיס לקוחות יציב. לעומת זאת, מודלים כמו Claude Opus 4.7 אימצו גישת "הישרדות", שכללה קיצוץ עלויות בלבד כדי להימנע מפשיטת רגל מבלי לייצר רווח משמעותי אי פעם.

מדוע זה חשוב לעתיד ה-AI

הפער בין הסוכנים בעלי הביצועים הטובים ביותר (47.15 מיליון דולר) לבין הגבול העליון התיאורטי של הסימולציה (2.2 מיליארד דולר) מרמז על כך ש"בינה מכוונת" של AI נמצאת עדיין בחיתוליה. עבור מפתחים ומייסדים, מדד זה מדגיש שהגבול הבא של ה-AI אינו רק יכולת הסקה (reasoning) טובה יותר, אלא מודעות זמן (temporal awareness) טובה יותר — היכולת לנהל משאבים וציפיות לאורך תקופות ארוכות ולא ודאיות.

נקודות מפתח

  • פער אסטרטגי: לרוב מודלי ה-AI הנוכחיים חסרה ה"בינה המכוונת" לניהול מחזורי עסקים ארוכי טווח, כאשר רובם נכשלים במבחן ההישרדות של 500 הימים.
  • בעלי הביצועים הטובים ביותר: רק Claude Fable 5, Claude Opus 4.8 ו-GPT-5.5 הצליחו להגדיל את הון החברה מעבר למיליון הדולר ההתחלתי.
  • מדד היוריסטי: אלגוריתם פשוט מבוסס חוקים שאינו מבוסס AI עלה בביצועיו על כמעט כל ה-LLMs, מה שמדגיש כי עקביות אסטרטגית חיונית יותר מכוח עיבוד גולמי.