Claude Sonnet 5: ઉચ્ચ પ્રદર્શન ભાવમાં મોટો વધારો છુપાવી રહ્યું છે

Anthropic નું તાજેતરનું રિલીઝ, Claude Sonnet 5, પ્રભાવશાળી બેન્ચમાર્ક લાભો આપે છે પરંતુ ડેવલપર્સ માટે છુપા નાણાકીય બોજ લાવે છે. જોકે સત્તાવાર ટોકન દરો યથાવત છે, તેમ છતાં નવો ડેટા સૂચવે છે કે મોડેલની વધેલી વાચાળતા (verbosity) અને એજન્ટિક વર્તણૂક (agentic behavior) દરેક કાર્ય માટેના વાસ્તવિક ખર્ચમાં નોંધપાત્ર વધારો કરે છે.

બૌદ્ધિક લાભો વિરુદ્ધ ટોકન વપરાશ

Artificial Analysis Intelligence Index v4.1 મુજબ, Claude Sonnet 5 એ એક મહત્વપૂર્ણ ટેકનિકલ સીમાચિહ્ન હાંસલ કર્યું છે. 53 પોઈન્ટ્સ મેળવીને, તે વૈશ્વિક સ્તરે પાંચમા ક્રમે છે, જે GPT-5.5 (high) સાથે સમાન છે અને તેના પૂર્વવર્તી Sonnet 4.6 (જેણે 47 પોઈન્ટ્સ મેળવ્યા હતા) કરતા વધુ સારું પ્રદર્શન કરે છે. આ પ્રદર્શનમાં થયેલો ઉછાળો ઘણા વિશિષ્ટ બેન્ચમાર્ક પર સ્પષ્ટ દેખાય છે, જેમાં Terminal-Bench v2.1 પર 9 પોઈન્ટનો ઉછાળો અને Humanity's Last Exam પર 10 પોઈન્ટનો વધારો સામેલ છે.

જોકે, આ બૌદ્ધિક લાભો અતિશય ટોકન વપરાશના ભોગે મળે છે. AA-Briefcase અને GDPval-AA જેવા એજન્ટ-આધારિત જ્ઞાન કાર્યના બેન્ચમાર્ક પર, Sonnet 5 એ Sonnet 4.6 કરતા લગભગ ત્રણ ગણા વધુ એજન્ટ લૂપ્સ (agent loops) ચલાવે છે. મહત્તમ પ્રદર્શન સેટિંગ્સ પર, આ મોડેલ અગાઉની પેઢીની સરખામણીમાં દરેક કાર્ય માટે આશરે 40% વધુ આઉટપુટ ટોકન વાપરે છે.

સ્થિર ટોકન કિંમતનો ભ્રમ

ઉપરછલ્લી રીતે જોઈએ તો, Anthropic એ તેની કિંમતનું માળખું જાળવી રાખ્યું છે: $3 પ્રતિ મિલિયન ઇનપુટ ટોકન અને $15 પ્રતિ મિલિયન આઉટપુટ ટોકન. આ Opus 4.8 ટાયર કરતા નોંધપાત્ર રીતે સસ્તું છે, જેની કિંમત અનુક્રમે $5 અને $25 છે. તેમ છતાં, "પ્રતિ કાર્ય ખર્ચ" (cost per task) એક અલગ જ વાર્તા કહે છે.

Artificial Analysis રિપોર્ટ કરે છે કે Intelligence Index માં સરેરાશ કાર્ય Sonnet 5 સાથે $2.29 ખર્ચાળ છે, જ્યારે વધુ મોંઘા Opus 4.8 ની કિંમત માત્ર $1.97 છે. Sonnet 4.6 થી Sonnet 5 પર સ્થાનાંતરિત થતા ડેવલપર્સ માટે—જેની કિંમત પ્રતિ કાર્ય આશરે $1.20 હતી—Sonnet 5 પર જવું એ ઓપરેશનલ ખર્ચમાં લગભગ બમણો વધારો દર્શાવે છે. આ પેટર્ન અગાઉના રિલીઝો, જેમ કે Opus 4.7, ની યાદ અપાવે છે, જ્યાં "અપરિવર્તિત" દરો હોવા છતાં ટોકનાઇઝરમાં થયેલા ફેરફારોએ ખર્ચને અસરકારક રીતે 37.4% સુધી વધારી દીધો હતો.

સ્પર્ધાત્મક દબાણ અને પારદર્શિતાની જરૂરિયાત

જોકે Sonnet 5 અમુક એજન્ટિક કાર્યોમાં ઉત્કૃષ્ટ છે, તેમ છતાં તે ઉચ્ચ સ્તરના ફિઝિક્સ રીઝનિંગમાં સંઘર્ષ કરે છે. Argonne National Labs ના CritPt બેન્ચમાર્ક પર, તેણે 17% સ્કોર કર્યો છે, જે GLM-5.2, Claude Fable 5 અને GPT-5.5 જેવા દિગ્ગજ મોડેલોથી પાછળ છે.

આ પ્રદર્શનનો તફાવત અને વધતી જતી ખર્ચની સંરચના Anthropic ને જોખમી સ્થિતિમાં મૂકે છે. જેમ કે Deepseek V4 Pro અને GLM-5.2 જેવા ચીની સ્પર્ધકો ખૂબ જ ઓછા ખર્ચે સમાન મધ્યમ-સ્તરનું પ્રદર્શન આપે છે, તેમ Claude ફેમિલીનો "છુપો" ભાવ વધારો એ એન્ટરપ્રાઇઝ એડોપ્શન (enterprise adoption) માટે એક નિર્ણાયક પરિબળ બની જાય છે. ઉદ્યોગ હવે કાચા ટોકન કાઉન્ટ પર આધાર રાખવાને બદલે વધુ પારદર્શક મેટ્રિક્સ—જેમ કે પ્રમાણિત કાર્ય દીઠ ખર્ચ—ની જરૂરિયાત તરફ આગળ વધી રહ્યો છે, કારણ કે કાચા ટોકન કાઉન્ટ હવે એજન્ટિક વર્કફ્લોના વાસ્તવિક કમ્પ્યુટેશનલ લોડને પ્રતિબિંબિત કરતા નથી.

મુખ્ય મુદ્દાઓ

  • છુપો ખર્ચ વધારો: સમાન ટોકન દરો હોવા છતાં, વધેલા ટોકન વપરાશને કારણે Sonnet 5 એ Sonnet 4.6 કરતા પ્રતિ કાર્ય આશરે 90% વધુ મોંઘું છે.
  • બેન્ચમાર્ક પ્રદર્શન: Sonnet 5 53 પોઈન્ટ્સ સાથે વૈશ્વિક સ્તરે 5મા ક્રમે છે, જે એજન્ટિક લૂપ્સ અને SciCode તથા Terminal-Bench જેવા વિશિષ્ટ બેન્ચમાર્ક પર મોટો ફાયદો દર્શાવે છે.
  • કિંમતમાં અસમાનતા: વાસ્તવિક બૌદ્ધિક બેન્ચમાર્ક દ્વારા માપવામાં આવે ત્યારે, "સસ્તું" Sonnet 5 વાસ્તવમાં પ્રીમિયમ Opus 4.8 ($1.97) કરતા પ્રતિ કાર્ય વધુ ખર્ચાળ ($2.29) છે.