מודלי AI רצים ללא הפסקה במשך 19 ימים בבנצ'מרק MirrorCode החדש

הנוף של הנדסת תוכנה אוטונומית עובר מקטעי קוד פשוטים למרתוני תכנות מסיביים שנמשכים ימים. בנצ'מרק חדש מבית Epoch AI ו-METR, בשם MirrorCode, חושף כי מודלי AI יכולים כעת להתמודד עם משימות מימוש מחדש (reimplementation) מורכבות שבעבר דרשו שבועות של עבודה אנושית.

מאתגרים את ה-AI באמצעות MirrorCode

MirrorCode מייצג סטייה משמעותית מבנצ'מרקים מסורתיים של הנדסת תוכנה, שבדרך כלל מגבילים את עלויות ה-inference לכמה דולרים בודדים, בין 1 ל-10 דולר למשימה. במקום זאת, בנצ'מרק זה דורש ממודלי AI לממש מחדש תוכניות שלמות ומורכבות מאפס — החל מכלי עזר של Unix וקריפטוגרפיה ועד לביואינפורמטיקה וסריאליזציה של נתונים — ללא גישה לקוד המקור המקורי. כדי להבטיח שקילות פונקציונלית אמיתית, כל פתרון שנוצר על ידי ה-AI חייב לעבור בדיקות end-to-end נסתרות שהמודל לעולם לא רואה במהלך שלב הפיתוח שלו.

קנה המידה של המשימות הללו הוא חסר תקדים. משימה ספציפית אחת בבנצ'מרק דרשה ממודל AI לעבוד ברציפות במשך 19 ימים ללא כל התערבות אנושית, מה שהוביל לעלות inference של 2,600 דולר להרצה בודדת.

Claude Opus 4.7 מוביל במירוץ

תוצאות הבנצ'מרק מדגישות היררכיה ברורה בין מודלי ה-frontier הנוכחיים. Claude Opus 4.7 הופיע כמוביל עם שיעור פתרון של 56 אחוזים, תוצאה שעוקפת משמעותית את GPT-5.5, שהשיג 44 אחוזים, ואת Gemini 3.1 Pro Preview, שעמד על 32 אחוזים.

הצלחה בולטת במיוחד נרשמה עם ערכת הכלים לביואינפורמטיקה gotree. תוכנית זו מורכבת מכ-16,000 שורות קוד ב-Go וכוללת למעלה מ-40 פקודות נפרדות. בעוד שמהנדס אנושי יזדקק בדרך כלל בין שבועיים ל-17 שבועות להשלמת משימה כזו, Claude Opus 4.7 הצליח לממש אותה מחדש ב-14 שעות בלבד בעלות של 251 דולר. אפילו במקרים שבהם המודלים נכשלים בהשגת מימוש מחדש מושלם של 100 אחוזים, הם עוברים באופן מרשים למעלה מ-90 אחוז מהבדיקות הפונקציונליות.

פער המורכבות וסיכוני הזיכרון

למרות קפיצות אלו, תוצאות MirrorCode חושפות "תקרת מורכבות" מובחנת. בעוד שכל המודלים שנבדקו מטפלים באופן אמין בתוכניות קטנות כמו uuid או parseqsv, לאף מודל אין כיום את היכולת לפתור באופן מלא את קטגוריית המשימות ה"גדולה". חזית הקידוד ב-AI עדיין מתקשה אל מול ארכיטקטורות תוכנה מאסיביות ומקושרות ביותר.

Epoch AI התייחסה גם לחשש קריטי בהערכת LLM: זיהום נתונים (data contamination). מכיוון שהבנצ'מרק משתמש בתוכנות קוד פתוח, קיים סיכון שהמודלים כבר שיננו את הקוד המקורי במהלך שלבי האימון שלהם. בעוד שממצאים ראשוניים מצביעים על כך שהביצועים אינם נובעים אך ורק מזיכרון, חוקרים מודים כי אינם יכולים לשלול לחלוטין את תרומתו לשיעורי הפתרון הנוכחיים.

למה זה חשוב לתעשיית ה-AI

MirrorCode מסמן מעבר מ-"AI כ-Copilot" ל-"AI כסוכן אוטונומי" (Autonomous Agent). על ידי הוכחה לכך שמודלים יכולים לשמר יכולת הסקה (reasoning) לאורך תקופות של 19 ימים ולטפל באלפי שורות קוד, התעשייה מתקרבת לסוכנים המסוגלים לנהל מחזורי חיים של תוכנה שלמים. ככל שעלויות ה-inference משתנות — כאשר GPT-5.5 עולה פי שלושה מקודמו בעוד ש-Claude Opus 4.7 הפך ליעיל פי שלושה — ההיתכנות הכלכלית של הנדסה אוטונומית תהפוך לחזית הגדולה הבאה.

נקודות מפתח

  • קנה מידה חדש של הסקה: MirrorCode דוחף את גבולות ה-AI על ידי מתן תקציבי inference מאסיביים, כאשר משימות בודדות עולות עד 2,600 דולר ונמשכות 19 ימים.
  • Claude מוביל בביצועים: Claude Opus 4.7 הוא כיום המוביל בבנצ'מרק עם שיעור פתרון של 56%, המפגין יכולות עילית במימוש מחדש של בסיסי קוד Go בקנה מידה גדול.
  • חסמי מורכבות נותרו בעינם: בעוד שמשימות בקנה מידה קטן נפתרות באופן אמין, אף מודל קיים עדיין אינו יכול לפצח לחלוטין את משימות התכנות המורכבות ביותר בקנה מידה גדול.