Claude Sonnet 5: అధిక పనితీరు వెనుక దాగి ఉన్న భారీ ధర పెరుగుదల

Anthropic యొక్క తాజా విడుదల, Claude Sonnet 5, అద్భుతమైన బెంచ్‌మార్క్ లాభాలను అందిస్తున్నప్పటికీ, డెవలపర్లకు ఇది ఒక దాగి ఉన్న ఆర్థిక భారాన్ని కలిగిస్తోంది. అధికారిక టోకెన్ ధరలు మారనప్పటికీ, మోడల్ యొక్క పెరిగిన వర్బోసిటీ (verbosity) మరియు ఏజెంటిక్ ప్రవర్తన (agentic behavior) వల్ల ప్రతి టాస్క్‌కు అయ్యే వాస్తవ ఖర్చు గణనీయంగా పెరుగుతోందని కొత్త డేటా సూచిస్తోంది.

మేధోపరమైన లాభాలు vs. టోకెన్ వినియోగం

Artificial Analysis Intelligence Index v4.1 ప్రకారం, Claude Sonnet 5 ఒక ముఖ్యమైన సాంకేతిక మైలురాయిని చేరుకుంది. 53 పాయింట్లు సాధించి, ఇది ప్రపంచవ్యాప్తంగా ఐదవ స్థానంలో ఉంది, GPT-5.5 (high) తో సమానంగా ఉంది మరియు 47 పాయింట్లు సాధించిన దాని పూర్వ వెర్షన్ Sonnet 4.6 కంటే మెరుగైన పనితీరును కనబరుస్తోంది. ఈ పనితీరు పెరుగుదల అనేక ప్రత్యేక బెంచ్‌మార్క్‌లలో స్పష్టంగా కనిపిస్తుంది, ఇందులో Terminal-Bench v2.1 లో 9 పాయింట్ల పెరుగుదల మరియు Humanity's Last Exam లో 10 పాయింట్ల పెరుగుదల ఉన్నాయి.

అయితే, ఈ మేధోపరమైన లాభాలు విపరీతమైన టోకెన్ వినియోగం వల్ల వస్తున్నాయి. AA-Briefcase మరియు GDPval-AA వంటి ఏజెంట్ ఆధారిత నాలెడ్జ్ వర్క్ బెంచ్‌మార్క్‌లలో, Sonnet 5 అనేది Sonnet 4.6 కంటే సుమారు మూడు రెట్లు ఎక్కువ ఏజెంట్ లూప్‌లను (agent loops) నిర్వహిస్తుంది. గరిష్ట పనితీరు సెట్టింగ్‌లలో, ఈ మోడల్ మునుపటి తరం కంటే ప్రతి టాస్క్‌కు సుమారు 40% ఎక్కువ అవుట్‌పుట్ టోకెన్లను వినియోగిస్తుంది.

స్థిరమైన టోకెన్ ధరల భ్రమ

పైకి చూస్తే, Anthropic తన ధరల నిర్మాణాన్ని అలాగే ఉంచింది: ప్రతి మిలియన్ ఇన్‌పుట్ టోకెన్లకు $3 మరియు ప్రతి మిలియన్ అవుట్‌పుట్ టోకెన్లకు $15. ఇది వరుసగా $5 మరియు $25 ఖర్చయ్యే Opus 4.8 టైర్ కంటే గణనీయంగా తక్కువ. అయినప్పటికీ, "ప్రతి టాస్క్‌కు అయ్యే ఖర్చు" (cost per task) వేరే కథ చెబుతోంది.

Intelligence Index లో సగటు టాస్క్ Sonnet 5 తో $2.29 ఖర్చవుతుందని Artificial Analysis నివేదించింది, అయితే ఖరీదైన Opus 4.8 కేవలం $1.97 మాత్రమే ఖర్చవుతుంది. ప్రతి టాస్క్‌కు సుమారు $1.20 ఖర్చయ్యే Sonnet 4.6 నుండి Sonnet 5 కి మారే డెవలపర్లకు, ఇది నిర్వహణ ఖర్చులను దాదాపు రెట్టింపు చేసినట్లు అవుతుంది. ఈ విధానం గతంలో విడుదల చేసిన Opus 4.7 వంటి వాటిని గుర్తుచేస్తోంది, అక్కడ "మార్పు లేని" ధరలు ఉన్నప్పటికీ, టోకనైజర్‌లోని మార్పుల వల్ల ఖర్చులు 37.4% వరకు పెరిగాయి.

పోటీ ఒత్తిళ్లు మరియు పారదర్శకత యొక్క అవసరం

Sonnet 5 కొన్ని ఏజెంటిక్ టాస్క్‌లలో అద్భుతంగా పనిచేస్తున్నప్పటికీ, ఉన్నత స్థాయి ఫిజిక్స్ రీజనింగ్‌లో (physics reasoning) ఇంకా ఇబ్బంది పడుతోంది. Argonne National Labs నుండి వచ్చిన CritPt బెంచ్‌మార్క్‌లో, ఇది 17% స్కోరు సాధించింది, ఇది GLM-5.2, Claude Fable 5 మరియు GPT-5.5 వంటి దిగ్గజాల వెనుకబడి ఉంది.

ఈ పనితీరు అంతరం మరియు పెరుగుతున్న ఖర్చుల నిర్మాణం Anthropic ను క్లిష్ట పరిస్థితిలో ఉంచుతున్నాయి. Deepseek V4 Pro మరియు GLM-5.2 వంటి చైనీస్ ప్రత్యర్థులు చాలా తక్కువ ఖర్చుతో సమానమైన మిడ్-రేంజ్ పనితీరును అందిస్తున్నందున, Claude ఫ్యామిలీ యొక్క ఈ "దాగి ఉన్న" ధరల పెరుగుదల ఎంటర్‌ప్రైజ్ వినియోగం (enterprise adoption) విషయంలో ఒక కీలక అంశంగా మారుతోంది. ఏజెంటిక్ వర్క్‌ఫ్లోల యొక్క వాస్తవ కంప్యూటేషనల్ లోడ్‌ను ప్రతిబింబించని కేవలం టోకెన్ల సంఖ్యపై ఆధారపడటం కంటే, ప్రామాణిక టాస్క్ యొక్క ఖర్చు వంటి మరింత పారదర్శకమైన కొలమానాల (metrics) వైపు పరిశ్రమ మళ్లుతోంది.

ముఖ్య అంశాలు

  • దాగి ఉన్న ఖర్చు పెరుగుదల: టోకెన్ ధరలు ఒకేలా ఉన్నప్పటికీ, పెరిగిన టోకెన్ వినియోగం కారణంగా Sonnet 5 అనేది Sonnet 4.6 కంటే ప్రతి టాస్క్‌కు సుమారు 90% ఎక్కువ ఖరీదైనది.
  • బెంచ్‌మార్క్ పనితీరు: Sonnet 5 53 పాయింట్లతో ప్రపంచవ్యాప్తంగా 5వ స్థానంలో ఉంది, ఇది ఏజెంటిక్ లూప్‌లు మరియు SciCode మరియు Terminal-Bench వంటి నిర్దిష్ట బెంచ్‌మార్క్‌లలో భారీ లాభాలను చూపుతోంది.
  • ధరల వ్యత్యాసం: వాస్తవ ప్రపంచ మేధో బెంచ్‌మార్క్‌ల ప్రకారం కొలిచినప్పుడు, "తక్కువ ధర" కలిగిన Sonnet 5, ప్రీమియం Opus 4.8 ($1.97) కంటే ప్రతి టాస్క్‌కు ఎక్కువ ($2.29) ఖర్చు అవుతుంది.