Claude Sonnet 5: أداء عالٍ يخفي قفزة كبيرة في السعر

يقدم أحدث إصدار من Anthropic، وهو Claude Sonnet 5، مكاسب مبهرة في اختبارات الأداء، ولكنه يحمل عبئًا ماليًا خفيًا للمطورين. وبينما تظل أسعار الرموز (tokens) الرسمية دون تغيير، تشير بيانات جديدة إلى أن زيادة الإسهاب والسلوك الوكيل (agentic behavior) للنموذج يرفعان التكلفة الفعلية لكل مهمة بشكل كبير.

مكاسب الذكاء مقابل استهلاك الرموز (Tokens)

وفقًا لمؤشر الذكاء Artificial Analysis Intelligence Index v4.1، حقق Claude Sonnet 5 إنجازًا تقنيًا كبيرًا. فمن خلال حصوله على 53 نقطة، يحتل المرتبة الخامسة عالميًا، متعادلًا مع GPT-5.5 (high) ومتفوقًا على سلفه Sonnet 4.6 الذي سجل 47 نقطة. وتظهر هذه القفزة في الأداء عبر العديد من اختبارات الأداء المتخصصة، بما في ذلك قفزة قدرها 9 نقاط في Terminal-Bench v2.1 وزيادة قدرها 10 نقاط في Humanity's Last Exam.

ومع ذلك، تأتي مكاسب الذكاء هذه على حساب استهلاك هائل للرموز. ففي اختبارات العمل المعرفي القائمة على الوكلاء (agent-based) مثل AA-Briefcase و GDPval-AA، ينفذ Sonnet 5 حلقات وكيل (agent loops) تبلغ حوالي ثلاثة أضعاف ما ينفذه Sonnet 4.6. وعند إعدادات الأداء القصوى، يستهلك النموذج رموز مخرجات أكثر بنسبة 40% تقريبًا لكل مهمة مقارنة بالجيل السابق.

وهم ثبات أسعار الرموز (Tokens)

في الظاهر، حافظت Anthropic على هيكل تسعيرها: 3 دولارات لكل مليون رمز مدخل (input tokens) و15 دولارًا لكل مليون رمز مخرج (output tokens). وهذا أرخص بشكل ملحوظ من فئة Opus 4.8، التي تبلغ تكلفتها 5 دولارات و25 دولارًا على التوالي. ومع ذلك، فإن "التكلفة لكل مهمة" تروي قصة مختلفة.

وتشير تقارير Artificial Analysis إلى أن متوسط تكلفة المهمة في مؤشر الذكاء يبلغ 2.29 دولارًا مع Sonnet 5، بينما تبلغ تكلفة Opus 4.8 الأكثر غلاءً 1.97 دولارًا فقط. وبالنسبة للمطورين الذين ينتقلون من Sonnet 4.6 — الذي كانت تكلفته حوالي 1.20 دولارًا لكل مهمة — فإن الانتقال إلى Sonnet 5 يمثل مضاعفة تقريبًا للمصاريف التشغيلية. ويعيد هذا النمط صدى الإصدارات السابقة، مثل Opus 4.7، حيث أدت التغييرات في أداة تقسيم الرموز (tokenizer) إلى زيادة التكاليف فعليًا بنسبة تصل إلى 37.4% رغم بقاء الأسعار "دون تغيير".

الضغوط التنافسية والحاجة إلى الشفافية

بينما يتفوق Sonnet 5 في مهام وكيل معينة، فإنه لا يزال يعاني في الاستدلال الفيزيائي عالي المستوى. ففي اختبار CritPt من مختبرات Argonne الوطنية، سجل 17%، متأخرًا عن العمالقة مثل GLM-5.2 و Claude Fable 5 و GPT-5.5.

تضع هذه الفجوة في الأداء وهيكل التكلفة المتصاعد شركة Anthropic في موقف محفوف بالمخاطر. فمع تقديم المنافسين الصينيين مثل Deepseek V4 Pro و GLM-5.2 أداءً متوسطًا مماثلاً بجزء بسيط من التكلفة، يصبح الزحف السعري "الخفي" لعائلة Claude عاملًا حاسمًا لاعتماد الشركات لها. يتجه القطاع نحو الحاجة إلى مقاييس أكثر شفافية — مثل التكلفة لكل مهمة معيارية — بدلاً من الاعتماد على أعداد الرموز الخام التي لم تعد تعكس العبء الحسابي الفعلي لسير عمل الوكلاء (agentic workflows).

النقاط الرئيسية

  • زيادة التكلفة الخفية: على الرغم من تماثل أسعار الرموز، فإن Sonnet 5 أغلى بنسبة 90% تقريبًا لكل مهمة مقارنة بـ Sonnet 4.6 بسبب زيادة استهلاك الرموز.
  • أداء اختبارات الأداء: يحتل Sonnet 5 المرتبة الخامسة عالميًا بـ 53 نقطة، مما يظهر مكاسب هائلة في حلقات الوكيل واختبارات محددة مثل SciCode و Terminal-Bench.
  • التفاوت في التسعير: إن Sonnet 5 "الأرخص" يكلف في الواقع أكثر لكل مهمة (2.29 دولارًا) من Opus 4.8 المتميز (1.97 دولارًا) عند قياسه باختبارات الذكاء في العالم الحقيقي.