Claude Sonnet 5: உயர் செயல்திறன் ஒரு குறிப்பிடத்தக்க விலை உயர்வை மறைக்கிறது

Anthropic-ன் சமீபத்திய வெளியீடான Claude Sonnet 5, ஈர்க்கக்கூடிய பெஞ்ச்மார்க் (benchmark) முன்னேற்றங்களை வழங்குகிறது, ஆனால் டெவலப்பர்களுக்கு இது ஒரு மறைமுகமான நிதிச் சுமையை ஏற்படுத்துகிறது. அதிகாரப்பூர்வ டோக்கன் (token) கட்டணங்கள் மாற்றமடையாத போதிலும், மாதிரியின் அதிகரித்த விரிவான தன்மை (verbosity) மற்றும் ஏஜென்டிக் (agentic) செயல்பாடுகள், ஒரு பணியைச் செய்வதற்கான உண்மையான செலவை கணிசமாக உயர்த்துகின்றன என்று புதிய தரவுகள் தெரிவிக்கின்றன.

அறிவுசார் முன்னேற்றங்கள் vs. டோக்கன் நுகர்வு

Artificial Analysis Intelligence Index v4.1-ன் படி, Claude Sonnet 5 ஒரு குறிப்பிடத்தக்க தொழில்நுட்ப மைல்கல்லை எட்டியுள்ளது. 53 புள்ளிகளைப் பெற்றுள்ள இது, உலகளவில் ஐந்தாவது இடத்தில் உள்ளது; இது GPT-5.5 (high)-உடன் சமமாக உள்ளது மற்றும் 47 புள்ளிகளைப் பெற்ற அதன் முந்தைய பதிப்பான Sonnet 4.6-ஐ விடச் சிறப்பாகச் செயல்படுகிறது. இந்த செயல்திறன் உயர்வு பல சிறப்பு பெஞ்ச்மார்க்குகளில் தெளிவாகத் தெரிகிறது, இதில் Terminal-Bench v2.1-ல் 9 புள்ளிகள் மற்றும் Humanity's Last Exam-ல் 10 புள்ளிகள் உயர்வு ஏற்பட்டுள்ளது.

இருப்பினும், இந்த அறிவுசார் முன்னேற்றங்கள் அதிகப்படியான டோக்கன் நுகர்வு என்ற விலையில் வருகின்றன. AA-Briefcase மற்றும் GDPval-AA போன்ற ஏஜென்ட் சார்ந்த அறிவுசார் பணி பெஞ்ச்மார்க்குகளில், Sonnet 4.6-ஐ விட Sonnet 5 சுமார் மூன்று மடங்கு அதிக ஏஜென்ட் லூப்களை (agent loops) இயக்குகிறது. அதிகபட்ச செயல்திறன் அமைப்புகளில் (maximum performance settings), முந்தைய தலைமுறையை விட ஒரு பணிக்கு இந்த மாதிரி சுமார் 40% கூடுதல் அவுட்புட் டோக்கன்களைப் பயன்படுத்துகிறது.

நிலையான டோக்கன் விலையிடுதல் எனும் மாயை

மேலோட்டமாகப் பார்க்கும்போது, Anthropic தனது விலையிடல் கட்டமைப்பைப் பராமரித்துள்ளது: ஒரு மில்லியன் இன்புட் டோக்கன்களுக்கு $3 மற்றும் ஒரு மில்லியன் அவுட்புட் டோக்கன்களுக்கு $15. இது Opus 4.8 நிலையை விடக் குறிப்பிடத்தக்க அளவு மலிவானது (அதன் விலை முறையே $5 மற்றும் $25). இருப்பினும், "ஒரு பணியின் செலவு" (cost per task) வேறொரு கதையைச் சொல்கிறது.

Intelligence Index-ல் ஒரு சராசரி பணியின் செலவு Sonnet 5-ல் $2.29 ஆக உள்ளது, ஆனால் அதிக விலை கொண்ட Opus 4.8 வெறும் $1.97 மட்டுமே என்று Artificial Analysis தெரிவிக்கிறது. ஒரு பணிக்குத் தோராயமாக $1.20 செலவான Sonnet 4.6-லிருந்து Sonnet 5-க்கு மாறுபடும் டெவலப்பர்களுக்கு, இது செயல்பாட்டுச் செலவை கிட்டத்தட்ட இருமடங்காக உயர்த்துகிறது. இந்த முறை முந்தைய வெளியீடுகளான Opus 4.7-ஐப் போலவே உள்ளது; அங்கு "மாற்றமில்லாத" விகிதங்கள் இருந்தபோதிலும், டோக்கனைசரில் (tokenizer) செய்யப்பட்ட மாற்றங்கள் செலவை 37.4% வரை உயர்த்தின.

போட்டி அழுத்தங்கள் மற்றும் வெளிப்படைத்தன்மையின் அவசியம்

Sonnet 5 சில ஏஜென்டிக் பணிகளில் சிறந்து விளங்கினாலும், உயர்மட்ட இயற்பியல் பகுத்தறிவில் (high-level physics reasoning) இன்னும் சிரமப்படுகிறது. Argonne National Labs-ன் CritPt பெஞ்ச்மார்க்கில், இது 17% மதிப்பெண்களைப் பெற்றுள்ளது, இது GLM-5.2, Claude Fable 5 மற்றும் GPT-5.5 போன்ற முன்னணி மாதிரிகளுக்குப் பின் தங்கியுள்ளது.

இந்த செயல்திறன் இடைவெளியும் அதிகரித்து வரும் செலவு கட்டமைப்பும் Anthropic-ஐ ஒரு இக்கட்டான நிலையில் வைக்கிறது. Deepseek V4 Pro மற்றும் GLM-5.2 போன்ற சீனப் போட்டியாளர்கள் மிகக் குறைந்த விலையில் இணையான நடுத்தர அளவிலான செயல்திறனை வழங்கும் நிலையில், Claude குடும்பத்தின் இந்த "மறைமுக" விலை உயர்வு நிறுவனங்களின் பயன்பாட்டிற்கு (enterprise adoption) ஒரு முக்கியமான காரணியாக மாறுகிறது. ஏஜென்டிக் பணிப்பாய்வுகளின் (agentic workflows) உண்மையான கணக்கீட்டுச் சுமையைப் பிரதிபலிக்காத வெறும் டோக்கன் எண்ணிக்கையை மட்டும் நம்பியிருக்காமல், தரப்படுத்தப்பட்ட ஒரு பணியின் செலவு போன்ற அதிக வெளிப்படையான அளவீடுகளை நோக்கித் தொழில் துறை நகர்ந்து வருகிறது.

முக்கியக் குறிப்புகள்

  • மறைமுகச் செலவு அதிகரிப்பு: டோக்கன் விகிதங்கள் ஒன்றாக இருந்தபோதிலும், அதிகரித்த டோக்கன் நுகர்வு காரணமாக Sonnet 4.6-ஐ விட Sonnet 5 ஒரு பணியில் சுமார் 90% அதிக செலவு பிடிக்கிறது.
  • பெஞ்ச்மார்க் செயல்திறன்: Sonnet 5 53 புள்ளிகளுடன் உலகளவில் 5வது இடத்தில் உள்ளது; இது ஏஜென்டிக் லூப்கள் மற்றும் SciCode மற்றும் Terminal-Bench போன்ற குறிப்பிட்ட பெஞ்ச்மார்க்குகளில் மிகப்பெரிய முன்னேற்றத்தைக் காட்டுகிறது.
  • விலை வேறுபாடு: உண்மையான அறிவுசார் பெஞ்ச்மார்க்குகளின்படி அளவிடும்போது, "மலிவான" Sonnet 5 உண்மையில் பிரீமியம் Opus 4.8 ($1.97)-ஐ விட ஒரு பணியில் அதிக செலவை ($2.29) ஏற்படுத்துகிறது.