Claude Sonnet 5: उच्च कार्यक्षमता, पण किमतीत मोठी वाढ लपली आहे

Anthropic चे नवीनतम रिलीज, Claude Sonnet 5, प्रभावी बेंचमार्क सुधारणा प्रदान करते, परंतु डेव्हलपर्ससाठी यामध्ये एक छुपा आर्थिक भार आहे. जरी अधिकृत टोकन दर बदललेले नसले तरी, नवीन डेटा असे सूचित करतो की मॉडेलची वाढलेली शब्दबंबाली (verbosity) आणि एजन्टिक वर्तन (agentic behavior) यामुळे प्रत्येक कामाचा (task) वास्तविक खर्च लक्षणीयरीत्या वाढतो.

बुद्धिमत्ता वाढ विरुद्ध टोकन वापर (Token Consumption)

Artificial Analysis Intelligence Index v4.1 नुसार, Claude Sonnet 5 ने एक महत्त्वपूर्ण तांत्रिक टप्पा गाठला आहे. ५३ गुण मिळवून, ते जागतिक स्तरावर पाचव्या क्रमांकावर आहे, जे GPT-5.5 (high) सोबत बरोबरी करते आणि त्याच्या पूर्ववर्ती, Sonnet 4.6 (ज्याने ४७ गुण मिळवले होते) पेक्षा सरस ठरले आहे. ही कामगिरीतील झेप अनेक विशेष बेंचमार्क्समध्ये दिसून येते, ज्यामध्ये Terminal-Bench v2.1 वर ९ गुणांची वाढ आणि Humanity's Last Exam वर १० गुणांची वाढ समाविष्ट आहे.

तथापि, बुद्धिमत्तेतील ही वाढ प्रचंड टोकन वापराच्या किंमतीवर येते. AA-Briefcase आणि GDPval-AA सारख्या एजंट-आधारित ज्ञान कार्य बेंचमार्क्समध्ये, Sonnet 5 हे Sonnet 4.6 च्या तुलनेत साधारणपणे तीनपट जास्त 'एजंट लूप्स' (agent loops) कार्यान्वित करते. कमाल कार्यक्षमता सेटिंग्जवर, हे मॉडेल मागील पिढीच्या तुलनेत प्रति कार्य (per task) सुमारे ४०% अधिक आउटपुट टोकन्स वापरते.

स्थिर टोकन किंमतीचा आभास

वरवर पाहता, Anthropic ने आपली किंमत रचना कायम ठेवली आहे: प्रति दशलक्ष इनपुट टोकन्ससाठी $३ आणि प्रति दशलक्ष आउटपुट टोकन्ससाठी $१५. हे Opus 4.8 टियरपेक्षा लक्षणीयरीत्या स्वस्त आहे, ज्याची किंमत अनुक्रमे $५ आणि $२५ आहे. तरीही, "प्रति कार्य खर्च" (cost per task) वेगळीच गोष्ट सांगतो.

Artificial Analysis च्या अहवालानुसार, Intelligence Index मध्ये Sonnet 5 सह एका सरासरी कार्याचा खर्च $२.२९ आहे, तर अधिक महागड्या Opus 4.8 चा खर्च केवळ $१.९७ आहे. Sonnet 4.6 वरून (ज्याचा खर्च प्रति कार्य साधारण $१.२० होता) Sonnet 5 कडे वळणाऱ्या डेव्हलपर्ससाठी, Sonnet 5 कडे जाणे म्हणजे परिचालन खर्चात (operational expenses) जवळपास दुप्पट वाढ होणे होय. ही पद्धत पूर्वीच्या रिलीजची आठवण करून देते, जसे की Opus 4.7, जिथे "अपरिवर्तित" दर असूनही टोकेनायझरमधील (tokenizer) बदलांमुळे खर्च प्रभावीपणे ३७.४% पर्यंत वाढला होता.

स्पर्धात्मक दबाव आणि पारदर्शकतेची गरज

जरी Sonnet 5 काही विशिष्ट एजन्टिक कामांमध्ये उत्कृष्ट असले, तरी त्याला उच्च-स्तरीय भौतिकशास्त्राच्या तर्कामध्ये (physics reasoning) अजूनही संघर्ष करावा लागत आहे. Argonne National Labs च्या CritPt बेंचमार्कवर, त्याने १७% गुण मिळवले, जे GLM-5.2, Claude Fable 5 आणि GPT-5.5 सारख्या दिग्गज मॉडेल्सच्या मागे आहेत.

ही कामगिरीतील तफावत आणि वाढती खर्च रचना Anthropic ला एका अनिश्चित स्थितीत आणते. Deepseek V4 Pro आणि GLM-5.2 सारखे चिनी स्पर्धक अत्यंत कमी खर्चात तुलनात्मक मध्यम-श्रेणीची कामगिरी देत असताना, Claude कुटुंबातील ही "छुपी" किंमत वाढ एंटरप्राइझ अवलंबनासाठी (enterprise adoption) एक महत्त्वाचा घटक ठरत आहे. उद्योग आता केवळ कच्च्या टोकन संख्येवर अवलंबून न राहता अधिक पारदर्शक मेट्रिक्सकडे—जसे की प्रमाणित कार्याचा खर्च (cost per standardized task)—वळत आहे, कारण टोकन संख्या आता एजन्टिक वर्कफ्लोचा वास्तविक संगणकीय भार (computational load) दर्शवत नाही.

मुख्य निष्कर्ष

  • छुपा खर्च वाढ: समान टोकन दर असूनही, वाढलेल्या टोकन वापरामुळे Sonnet 5 प्रति कार्य Sonnet 4.6 पेक्षा सुमारे ९०% अधिक महाग आहे.
  • बेंचमार्क कामगिरी: Sonnet 5 ५३ गुणांसह जागतिक स्तरावर ५ व्या क्रमांकावर आहे, जे एजन्टिक लूप्स आणि SciCode आणि Terminal-Bench सारख्या विशिष्ट बेंचमार्क्समध्ये मोठी प्रगती दर्शवते.
  • किंमतीतील तफावत: वास्तविक जगातील बुद्धिमत्ता बेंचमार्क्सनुसार मोजले असता, "स्वस्त" असलेला Sonnet 5 प्रत्यक्षात प्रीमियम Opus 4.8 ($१.९७) पेक्षा प्रति कार्य अधिक खर्चिक ($२.२९) आहे.