OpenAI משיקה את GPT-5.6 Sol כדי לאתגר את Claude Mythos
OpenAI חשפה רשמית את GPT-5.6 Sol, דור חדש ומתוחכם של מודלים שנועד לשלוט במגזרי ה-agentic coding והסייבר. בעוד שההשקה מסמנת קפיצת מדרגה משמעותית ביכולות ההסקה (reasoning), היא מגיעה בצל מחלוקת גוברת בנוגע לפרוטוקולי גישה מגבילים של ממשלת ארה"ב.
ארכיטקטורה מדרגת חדשה לביצועים וקנה מידה
בניגוד לשחרור מודלים בודדים, OpenAI הציגה שיטת שיום שכבתית שנועדה לתת מענה לצרכים ארגוניים מגוונים. ארכיטקטורה זו משתמשת ב-"Sol", "Terra" ו-"Luna" כשכבות ביצועים קבועות, מה שמאפשר למפתחים להתרחב (scale) בהתאם לתקציב ולמורכבות.
בראש ההיררכיה נמצא Sol, מודל הדגל. מתחתיו נמצא Terra, שמתחרה בביצועים של GPT-5.5 בערך בחצי מהעלות, ו-Luna, שכבת התקציב. עבור עומסי עבודה בעצימות גבוהה, OpenAI הציגה מצב "max" להסקה עמוקה ומצב "ultra", המשתמש ב-sub-agents הפועלים במקביל כדי לטפל במשימות מורכבות ורב-גוניות.
קביעת אמות מידה חדשות בתכנות ובביולוגיה
המטרה העיקרית של GPT-5.6 Sol היא לעקוף את מחלקת Claude Mythos של Anthropic. במשימות agentic coding, המספרים תומכים בטענות של OpenAI: במבחן הביצועים Terminal-Bench 2.1, Sol Ultra השיג 91.9% מדהימים, תוך שהוא עוקף את Claude Mythos 5 (88.0%) ואת Gemini 3.1 Pro Preview של Google (70.7%).
המודל מציג גם פריצות דרך משמעותיות במדעי התחום. במבחן הגנומיקה GeneBench v1, Sol השיג 30%, עלייה משמעותית לעומת ה-22% שהשיג GPT-5.5, וזאת תוך צריכת פחות tokens באופן ניכר. יעילות זו מרמזת ש-OpenAI מתמקדת ב-"smarter" compute (חישוב חכם יותר) ולא רק ב-"larger" compute (חישוב גדול יותר).
אבטחת סייבר: המגן מול התוקף
בתחום אבטחת הסייבר, Sol שואף להיות כלי הגנה מוביל. ב-ExploitBench — המבחן את היכולת למצוא ולנצל פרצות (vulnerabilities) במנוע ה-JavaScript של Google V8 — Sol משתווה לביצועים של Mythos Preview של Anthropic, אך עם יתרון קריטי: הוא משתמש בערך בשליש מכמות ה-output tokens.
OpenAI ממצבת את Sol כמגן ולא כתוקף אוטונומי. בבדיקות שכללו את Chromium ו-Firefox, המודל זיהה בהצלחה באגים ו-exploitation primitives, אך נמנע מיצירת exploit אוטונומי בשרשרת מלאה (full-chain exploit). OpenAI טוענת כי Sol נותר מתחת לסף ה-"Cyber Critical" במסגרת ה-Preparedness Framework הפנימית שלה.
מחלוקת בנוגע לגישה בשליטת הממשלה
השקת GPT-5.6 Sol אינה חפה מחיכוכים. כרגע, הגישה מוגבלת למספר מצומצם של שותפים נבחרים באמצעות API ו-Codex, הגבלה שהוטלה על ידי ממשלת ארה"ב. זאת בעקבות החלטת הממשלה הקודמת להסיר את Fable 5 של Anthropic מהשוק.
OpenAI הביעה התנגדות עזה למגבלות אלו, וכינתה את תהליך הגישה הממשלתי הנוכחי כ"בלתי בר-קיימא" (unsustainable). החברה טוענת כי מגבלות כאלו מונעות ממפתחים, ארגונים ומגיני סייבר לגשת בדיוק לכלים שהם זקוקים להם כדי לאבטח את התשתית הדיגיטלית העולמית.
נקודות מרכזיות
- אסטרטגיית מודלים מדרגת: OpenAI מציגה היררכיה חדשה — Sol (דגל), Terra (דרגת ביניים) ו-Luna (תקציבית) — לצד מצב "Ultra" לביצוע משימות במקביל באמצעות sub-agents.
- דומיננטיות במבחני ביצועים: GPT-5.6 Sol Ultra מוביל בתעשייה בתחום ה-agentic coding עם 91.9% ב-Terminal-Bench 2.1, תוך עקיפה משמעותית של Claude Mythos ו-Gemini.
- גישת "יעילות תחילה": Sol משיג תוצאות תחרותיות בתחומי אבטחת הסייבר והגנומיקה תוך שימוש בפחות tokens באופן משמעותי, מה שעשוי להפחית את העלות האפקטיבית למשימה עבור מפתחים.
