Claude Sonnet 5: उच्च प्रदर्शन के पीछे छिपी कीमतों में भारी उछाल
Anthropic का नवीनतम रिलीज़, Claude Sonnet 5, प्रभावशाली बेंचमार्क लाभ तो देता है, लेकिन डेवलपर्स के लिए एक छिपा हुआ वित्तीय बोझ भी लेकर आता है। हालांकि आधिकारिक टोकन दरें अपरिवर्तित हैं, लेकिन नया डेटा बताता है कि मॉडल की बढ़ी हुई विस्तारशीलता (verbosity) और एजेंटिक व्यवहार (agentic behavior) प्रति कार्य वास्तविक लागत को काफी बढ़ा देते हैं।
बुद्धिमत्ता में वृद्धि बनाम टोकन की खपत
Artificial Analysis Intelligence Index v4.1 के अनुसार, Claude Sonnet 5 ने एक महत्वपूर्ण तकनीकी मील का पत्थर हासिल किया है। 53 अंक प्राप्त करते हुए, यह वैश्विक स्तर पर पांचवें स्थान पर है, जो GPT-5.5 (high) के साथ बराबरी पर है और अपने पूर्ववर्ती Sonnet 4.6 (जिसने 47 अंक प्राप्त किए थे) से बेहतर प्रदर्शन करता है। प्रदर्शन में यह उछाल कई विशिष्ट बेंचमार्क में स्पष्ट है, जिसमें Terminal-Bench v2.1 पर 9 अंकों की वृद्धि और Humanity's Last Exam पर 10 अंकों की वृद्धि शामिल है।
हालांकि, बुद्धिमत्ता में यह वृद्धि अत्यधिक टोकन खपत की कीमत पर आती है। AA-Briefcase और GDPval-AA जैसे एजेंट-आधारित ज्ञान कार्य बेंचमार्क में, Sonnet 5, Sonnet 4.6 की तुलना में लगभग तीन गुना अधिक एजेंट लूप (agent loops) चलाता है। अधिकतम प्रदर्शन सेटिंग्स पर, यह मॉडल पिछली पीढ़ी की तुलना में प्रति कार्य लगभग 40% अधिक आउटपुट टोकन की खपत करता है।
स्थिर टोकन मूल्य निर्धारण का भ्रम
सतही तौर पर, Anthropic ने अपनी मूल्य निर्धारण संरचना को बनाए रखा है: $3 प्रति मिलियन इनपुट टोकन और $15 प्रति मिलियन आउटपुट टोकन। यह Opus 4.8 टियर की तुलना में काफी सस्ता है, जिसकी लागत क्रमशः $5 और $25 है। फिर भी, "प्रति कार्य लागत" (cost per task) एक अलग कहानी बताती है।
Artificial Analysis की रिपोर्ट के अनुसार, Intelligence Index में Sonnet 5 के साथ एक औसत कार्य की लागत $2.29 है, जबकि अधिक महंगा Opus 4.8 केवल $1.97 में आता है। Sonnet 4.6 से स्विच करने वाले डेवलपर्स के लिए—जिसकी लागत प्रति कार्य लगभग $1.20 थी—Sonnet 5 पर जाना परिचालन खर्चों (operational expenses) में लगभग दोगुनी वृद्धि है। यह पैटर्न पिछले रिलीज़, जैसे कि Opus 4.7 की याद दिलाता है, जहाँ "अपरिवर्तित" दरों के बावजूद टोकनाइज़र में बदलाव ने प्रभावी रूप से लागत को 37.4% तक बढ़ा दिया था।
प्रतिस्पर्धी दबाव और पारदर्शिता की आवश्यकता
हालांकि Sonnet 5 कुछ एजेंटिक कार्यों में उत्कृष्ट है, लेकिन यह अभी भी उच्च-स्तरीय भौतिकी तर्क (physics reasoning) में संघर्ष करता है। Argonne National Labs के CritPt बेंचमार्क पर, इसने 17% स्कोर किया, जो GLM-5.2, Claude Fable 5 और GPT-5.5 जैसे दिग्गजों से पीछे है।
प्रदर्शन का यह अंतर और बढ़ती लागत संरचना Anthropic को एक नाजुक स्थिति में डालती है। चूंकि Deepseek V4 Pro और GLM-5.2 जैसे चीनी प्रतिस्पर्धी बहुत कम लागत पर तुलनीय मिड-रेंज प्रदर्शन प्रदान करते हैं, इसलिए Claude परिवार की "छिपी हुई" बढ़ती कीमतें उद्यमों (enterprises) द्वारा इसे अपनाने के लिए एक महत्वपूर्ण कारक बन जाती हैं। उद्योग अब कच्चे टोकन काउंट (raw token counts) पर निर्भर रहने के बजाय अधिक पारदर्शी मेट्रिक्स—जैसे कि मानकीकृत कार्य प्रति लागत—की ओर बढ़ रहा है, क्योंकि टोकन काउंट अब एजेंटिक वर्कफ़्लो के वास्तविक कम्प्यूटेशनल लोड को नहीं दर्शाते हैं।
मुख्य बातें
- छिपी हुई लागत में वृद्धि: समान टोकन दरों के बावजूद, बढ़ी हुई टोकन खपत के कारण Sonnet 5 प्रति कार्य Sonnet 4.6 की तुलना में लगभग 90% अधिक महंगा है।
- बेंचमार्क प्रदर्शन: Sonnet 5 53 अंकों के साथ वैश्विक स्तर पर पांचवें स्थान पर है, जो एजेंटिक लूप और SciCode एवं Terminal-Bench जैसे विशिष्ट बेंचमार्क में भारी बढ़त दिखाता है।
- मूल्य निर्धारण में असमानता: वास्तविक दुनिया के इंटेलिजेंस बेंचमार्क द्वारा मापे जाने पर, "सस्ता" Sonnet 5 वास्तव में प्रीमियम Opus 4.8 ($1.97) की तुलना में प्रति कार्य अधिक ($2.29) खर्च करता है।
