Claude Sonnet 5: ביצועים גבוהים שמסתירים קפיצת מחיר משמעותית
הגרסה האחרונה של Anthropic, Claude Sonnet 5, מציגה שיפורים מרשימים במדדי ביצוע (benchmarks), אך נושאת עמה נטל כלכלי נסתר עבור מפתחים. בעוד שתעריפי ה-tokens הרשמיים נותרו ללא שינוי, נתונים חדשים מצביעים על כך שהפטנות המודל (verbosity) והתנהגותו האג'נטית (agentic behavior) מעלים משמעותית את העלות הריאלית לכל משימה.
רווחים באינטליגנציה מול צריכת טוקנים
על פי ה-Artificial Analysis Intelligence Index v4.1, Claude Sonnet 5 השיג אבן דרך טכנית משמעותית. עם ציון של 53 נקודות, הוא מדורג במקום החמישי בעולם, בתיקו עם GPT-5.5 (high), ועוקף את קודמו, Sonnet 4.6, שקיבל 47 נקודות. זינוק בביצועים זה ניכר במספר מדדי ביצוע ייעודיים, כולל עלייה של 9 נקודות ב-Terminal-Bench v2.1 ועלייה של 10 נקודות ב-Humanity's Last Exam.
עם זאת, הרווחים באינטליגנציה מגיעים במחיר של צריכת טוקנים קיצונית. במדדי ביצוע של עבודת ידע מבוססת סוכנים (agent-based) כמו AA-Briefcase ו-GDPval-AA, Sonnet 5 מבצע בערך פי שלושה יותר לולאות סוכן (agent loops) מאשר Sonnet 4.6. בהגדרות ביצועים מקסימליות, המודל צורך כ-40% יותר טוקני פלט לכל משימה בהשוואה לדור הקודם.
אשליית תמחור הטוקנים הסטטי
על פני השטח, Anthropic שמרה על מבנה התמחור שלה: $3 למיליון טוקני קלט ו-$15 למיליון טוקני פלט. זה זול משמעותית מרמת ה-Opus 4.8, שעולה $5 ו-$25 בהתאמה. עם זאת, ה"עלות לכל משימה" מספרת סיפור אחר.
Artificial Analysis מדווחת כי משימה ממוצעת ב-Intelligence Index עולה $2.29 עם Sonnet 5, בעוד שהיקר יותר, Opus 4.8, עולה רק $1.97. עבור מפתחים שעוברים מ-Sonnet 4.6 — שעלה בערך $1.20 למשימה — המעבר ל-Sonnet 5 מייצג כמעט הכפלה של ההוצאות התפעוליות. דפוס זה מהדהד גרסאות קודמות, כמו Opus 4.7, שבהן שינויים בטוקנייזר (tokenizer) העלו בפועל את העלויות בשיעור של עד 37.4%, למרות תעריפים "ללא שינוי".
לחצים תחרותיים והצורך בשקיפות
בעוד ש-Sonnet 5 מצטיין במשימות אג'נטיות מסוימות, הוא עדיין מתקשה בהסקה פיזיקלית ברמה גבוהה. במדד ה-CritPt של Argonne National Labs, הוא קיבל ציון של 17%, ונשאר מאחור אחרי כבדי משקל כמו GLM-5.2, Claude Fable 5 ו-GPT-5.5.
פער ביצועים זה ומבנה העלויות העולה מציבים את Anthropic בעמדה לא יציבה. ככל שהמתחרים הסינים כמו Deepseek V4 Pro ו-GLM-5.2 מציעים ביצועי ביניים דומים בשבריר מהעלות, עליית המחיר ה"נסתרת" של משפחת Claude הופכת לגורם קריטי עבור אימוץ בארגונים. התעשייה נעה לעבר הצורך במדדים שקופים יותר — כגון עלות למשימה סטנדרטית — במקום להסתמך על ספירת טוקנים גולמית שכבר אינה משקפת את העומס החישובי בפועל של תהליכי עבודה אג'נטיים.
נקודות מפתח
- עלייה בעלויות נסתרות: למרות תעריפי טוקנים זהים, Sonnet 5 יקר בערך ב-90% למשימה לעומת Sonnet 4.6 בשל צריכת טוקנים מוגברת.
- ביצועי מדדי ביצוע: Sonnet 5 מדורג במקום ה-5 בעולם עם 53 נקודות, ומציג שיפורים אדירים בלולאות אג'נטיות ובמדדים ספציפיים כמו SciCode ו-Terminal-Bench.
- פער בתמחור: ה-"זול" יותר, Sonnet 5, למעשה עולה יותר למשימה ($2.29) מאשר ה-Opus 4.8 היוקרתי ($1.97), כאשר מודדים זאת לפי מדדי אינטליגנציה בעולם האמיתי.
