Anthropic משיקה את Claude Sonnet 5: החזית החדשה של AI סוכני

Anthropic שחררה רשמית את Claude Sonnet 5, מודל עוצמתי שנועד לצמצם את פער הביצועים בין סדרות ה-AI בדרגת הביניים לבין סדרות הדגל. על ידי מתן עדיפות ליכולות סוכניות (agentic capabilities) — היכולת להשתמש בכלים, לגלוש ולבצע תוכניות מורכבות — גרסה זו מסמנת מעבר לעבר תהליכי עבודה אוטונומיים של AI.

צמצום הפער עם סדרת Opus

ההיבט המרשים ביותר של Sonnet 5 הוא עד כמה הוא מתקרב לביצועים של Opus 4.8, הגדול והיקר בהרבה. במבחני ביצועים (benchmarks) פורצי דרך, Sonnet 5 הוכיח שמודלים "בגודל בינוני" יכולים כעת להתמודד עם משימות שהיו שמורות בעבר לבינה ברמת frontier-class.

במבחן ההסקה הרב-תחומי, Humanity's Last Exam, Sonnet 5 השיג ציון של 57.4% תוך שימוש בכלים, כמעט כמתאם לציון של Opus 4.8 שעמד על 57.9%. באופן המרשים ביותר, במבחן משימות הידע בעולם האמיתי GDPval-AA v2, Sonnet 5 אף עקף את Opus 4.8, עם ציון של 1,618 נקודות לעומת 1,615 של מודל הדגל. הדבר מרמז כי עבור תהליכי עבודה ספציפיים עתירי ידע, היעילות של Sonnet 5 עשויה להכריע את קנה המידה הגולמי של סדרת Opus.

קפיצת מדרגה עצומה בביצועים סוכניים

Anthropic תכננה במיוחד את Sonnet 5 כדי שיהיה המודל ה"סוכני" ביותר שלה עד כה. המשמעות היא שהמודל מותאם לאינטראקציה עם סביבות כמו דפדפני אינטרנט וטרמינלים כדי להשלים יעדים רב-שלביים. הנתונים מראים קפיצה משמעותית לעומת קודמו, Sonnet 4.6:

  • SWE-bench Pro (Agentic Coding): Sonnet 5 הגיע ל-63.2%, עלייה מ-58.1% ב-Sonnet 4.6 (מאחר אחרי Opus 4.8 שעומד על 69.2%).
  • Terminal-Bench 2.1: קפיצה עצומה ל-80.4%, לעומת 67.0% עבור Sonnet 4.6.
  • OSWorld-Verified (Computer Use): המודל השיג 81.2%, ועקף את ה-78.5% שנרשמו בגרסה הקודמת.

ניווט בין מגבלות אבטחת סייבר ובטיחות

ההשקה מגיעה בתקופה רגישה עבור Anthropic, בעקבות הגבלות של ממשל ארה"ב על מודלי Mythos 5 ו-Fable 5 שלהם בשל חששות אבטחת סייבר. כדי להימנע ממכשולים דומים, Anthropic וידאה ש-Sonnet 5 לא אומן על משימות אבטחת סייבר ייעודיות.

בעוד ש-Sonnet 5 מציג שיעור שליטה חלקי גבוה מעט יותר בהערכות exploit (13.2%) מאשר Sonnet 4.6, הוא נותר פחות בעל יכולת משמעותית מ-Opus 4.8 או Mythos 5 בכתיבת exploit תוכנה. כדי לצמצם סיכונים, Anthropic הטמיעה כברירת מחדל הגנות סייבר בזמן אמת, לצד הגנות משופרות מפני prompt injection וצמצום של התנהגות "חנפנית" (sycophantic) — הנטייה פשוט להסכים עם טעויות המשתמש.

זמינות ו"פרדוקס הטוקנים"

Claude Sonnet 5 זמין כעת באמצעות Claude Platform ו-API (תחת השם claude-sonnet-5), עם חלון הקשר (context window) של מיליון טוקנים ומועד סיום אימון של ינואר 2026.

בעוד ש-Anthropic מציעה מחירים מבצעיים — $2 למיליון טוקנים של קלט ו-$10 למיליון טוקנים של פלט עד ה-31 באוגוסט 2026 — על מפתחים להיזהר מ"פרדוקס הטוקנים". מכיוון שהמודל סוכני יותר ועוסק ביותר הסקה איטרטיבית, הוא עשוי לצרוך הרבה יותר טוקנים כדי להשלים משימה בודדת בהשוואה לגרסאות קודמות, מה שעלול לבטל את העלות הנמוכה לכל טוקן.

נקודות מרכזיות

  • שוויון בביצועים: Sonnet 5 משתווה ואף מנצח את מודל הדגל Opus 4.8 במבחני הסקה וידע ספציפיים.
  • מיקוד סוכני: המודל מציג שיפורים עצומים בכתיבת קוד (SWE-bench) ובאינטראקציה עם טרמינל, מה שהופך אותו לאידיאלי לשימוש אוטונומי בכלים.
  • בטיחות אסטרטגית: Anthropic נתנה עדיפות להגנות סייבר מובנות כדי להבדיל מודל זה ממודלי frontier שנויים במחלוקת ובעלי סיכון גבוה יותר.