Claude Sonnet 5: ഉയർന്ന പ്രകടനം വലിയ വില വർദ്ധനവിനെ മറച്ചുവെക്കുന്നു

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 ദിവസം മുമ്പ്2min read

In this article

Claude Sonnet 5: ഉയർന്ന പ്രകടനം വലിയ വിലവർദ്ധനവിനെ മറച്ചുവെക്കുന്നു

Anthropic-ന്റെ ഏറ്റവും പുതിയ റിലീസായ Claude Sonnet 5, മികച്ച ബെഞ്ച്മാർക്ക് നേട്ടങ്ങൾ കാഴ്ചവെക്കുന്നുണ്ടെങ്കിലും ഡെവലപ്പർമാർക്ക് ഇത് മറഞ്ഞിരിക്കുന്ന സാമ്പത്തിക ബാധ്യതയുണ്ടാക്കുന്നു. ഔദ്യോഗിക ടോക്കൺ നിരക്കുകളിൽ മാറ്റമില്ലെങ്കിലും, മോഡലിന്റെ വർദ്ധിച്ചുവരുന്ന വാചാലതയും (verbosity) ഏജന്റിക് സ്വഭാവവും (agentic behavior) ഓരോ ടാസ്കിനും വരുന്ന യഥാർത്ഥ ചിലവ് ഗണ്യമായി വർദ്ധിപ്പിക്കുന്നുവെന്ന് പുതിയ വിവരങ്ങൾ സൂചിപ്പിക്കുന്നു.

ബുദ്ധിപരമായ നേട്ടങ്ങളും ടോക്കൺ ഉപയോഗവും തമ്മിലുള്ള വ്യത്യാസം

Artificial Analysis Intelligence Index v4.1 അനുസരിച്ച്, Claude Sonnet 5 ഒരു പ്രധാന സാങ്കേതിക നാഴികക്കല്ല് കൈവരിച്ചിട്ടുണ്ട്. 53 പോയിന്റ് നേടിയ ഇത് ആഗോളതലത്തിൽ അഞ്ചാം സ്ഥാനത്താണ്; GPT-5.5 (high)-ന് തുല്യമായ പ്രകടനമാണ് ഇത് കാഴ്ചവെക്കുന്നത്. 47 പോയിന്റ് നേടിയ ഇതിന്റെ മുൻഗാമിയായ Sonnet 4.6-നേക്കാൾ മികച്ച പ്രകടനമാണ് ഇത് കാണിക്കുന്നത്. Terminal-Bench v2.1-ൽ 9 പോയിന്റും Humanity's Last Exam-ൽ 10 പോയിന്റും വർദ്ധനവ് ഉൾപ്പെടെയുള്ള വിവിധ സ്പെഷ്യലൈസ്ഡ് ബെഞ്ച്മാർക്കുകളിൽ ഈ പ്രകടന മുന്നേറ്റം വ്യക്തമാണ്.

എന്നിരുന്നാലും, ഈ ബുദ്ധിപരമായ നേട്ടങ്ങൾ കടുത്ത ടോക്കൺ ഉപയോഗത്തിന്റെ വില നൽകിയാണ് ലഭിക്കുന്നത്. AA-Briefcase, GDPval-AA തുടങ്ങിയ ഏജന്റ് അധിഷ്ഠിത നോളജ് വർക്ക് ബെഞ്ച്മാർക്കുകളിൽ, Sonnet 4.6-നെ അപേക്ഷിച്ച് Sonnet 5 ഏകദേശം മൂന്നിരട്ടി ഏജന്റ് ലൂപ്പുകൾ (agent loops) പ്രവർത്തിപ്പിക്കുന്നു. പരമാവധി പെർഫോമൻസ് സെറ്റിംഗുകളിൽ, മുൻതലമുറയെ അപേക്ഷിച്ച് ഓരോ ടാസ്കിനും ഏകദേശം 40% കൂടുതൽ ഔട്ട്‌പുട്ട് ടോക്കണുകൾ ഈ മോഡൽ ഉപയോഗിക്കുന്നു.

മാറ്റമില്ലാത്ത ടോക്കൺ നിരക്കുകളുടെ മിഥ്യാധാരണ

പുറമെ നിന്ന് നോക്കുമ്പോൾ, Anthropic അതിന്റെ വിലനിർണ്ണയ രീതി നിലനിർത്തിയിട്ടുണ്ട്: ഒരു ദശലക്ഷം ഇൻപുട്ട് ടോക്കണുകൾക്ക് $3-ഉം ഒരു ദശലക്ഷം ഔട്ട്‌പുട്ട് ടോക്കണുകൾക്ക് $15-ഉം ആണ് നിരക്ക്. ഇത് $5-ഉം $25-ഉം നിരക്കുള്ള Opus 4.8 വിഭാഗത്തേക്കാൾ കുറഞ്ഞ നിരക്കാണ്. എന്നിരുന്നാലും, "ടാസ്ക് പ്രകാരമുള്ള ചിലവ്" (cost per task) മറ്റൊരു കഥയാണ് പറയുന്നത്.

Intelligence Index അനുസരിച്ച് Sonnet 5 ഉപയോഗിച്ച് ഒരു ശരാശരി ടാസ്ക് പൂർത്തിയാക്കാൻ $2.29 ചിലവാകുന്നുവെന്നും, എന്നാൽ വിലകൂടിയ Opus 4.8-ന് വെറും $1.97 മാത്രമേ ചിലവാകുന്നുള്ളൂവെന്നും Artificial Analysis റിപ്പോർട്ട് ചെയ്യുന്നു. ഒരു ടാസ്കിന് ഏകദേശം $1.20 മാത്രം ചിലവാകയിരുന്ന Sonnet 4.6-ൽ നിന്ന് Sonnet 5-ലേക്ക് മാറുന്ന ഡെവലപ്പർമാരെ സംബന്ധിച്ചിടത്തോളം, ഇത് പ്രവർത്തനച്ചെലവ് ഏകദേശം ഇരട്ടിയാകുന്നതിന് തുല്യമാണ്. "മാറ്റമില്ലാത്ത" നിരക്കുകൾ പ്രഖ്യാപിച്ചിട്ടും ടോക്കണൈസറിലെ (tokenizer) മാറ്റങ്ങൾ കാരണം ചിലവ് 37.4% വരെ വർദ്ധിച്ച Opus 4.7 പോലുള്ള മുൻപത്തെ റിലീസുകളുടെ അതേ രീതിയാണിത്.

മത്സര സമ്മർദ്ദങ്ങളും സുതാര്യതയുടെ ആവശ്യകതയും

ചില ഏജന്റിക് ടാസ്ക്കുകളിൽ Sonnet 5 മികshowing ആണെങ്കിലും, ഉയർന്ന നിലവാരത്തിലുള്ള ഫിസിക്സ് റീസണിംഗിൽ (physics reasoning) ഇത് ഇപ്പോഴും പിന്നിലാണ്. Argonne National Labs-ന്റെ CritPt ബെഞ്ച്മാർക്കിൽ 17% മാത്രം സ്കോർ ചെയ്ത ഇത്, GLM-5.2, Claude Fable 5, GPT-5.5 തുടങ്ങിയ കരുത്തുറ്റ മോഡലുകൾക്ക് പിന്നിലായി.

ഈ പ്രകടന വ്യത്യാസവും വർദ്ധിച്ചുവരുന്ന ചിലവ് ഘടനയും Anthropic-നെ പ്രതിസന്ധിയിലാക്കുന്നു. Deepseek V4 Pro, GLM-5.2 തുടങ്ങിയ ചൈനീസ് എതിരാളികൾ വളരെ കുറഞ്ഞ ചിലവിൽ സമാനമായ മിഡ്-റേഞ്ച് പ്രകടനം വാഗ്ദാനം ചെയ്യുമ്പോൾ, Claude കുടുംബത്തിന്റെ ഈ "മറഞ്ഞിരിക്കുന്ന" വിലവർദ്ധനവ് വലിയ കമ്പനികൾ ഈ മോഡലുകൾ സ്വീകരിക്കുന്നതിൽ ഒരു പ്രധാന ഘടകമായി മാറുന്നു. ഏജന്റിക് വർക്ക്ഫ്ലോകളുടെ യഥാർത്ഥ കമ്പ്യൂട്ടേഷണൽ ലോഡ് പ്രതിഫലിപ്പിക്കാത്ത വെറും ടോക്കൺ എണ്ണങ്ങളെ ആശ്രയിക്കുന്നതിന് പകരം, ഒരു സ്റ്റാൻഡേർഡ് ടാസ്കിന് വരുന്ന ചിലവ് പോലുള്ള കൂടുതൽ സുതാര്യമായ അളവുകോലുകളിലേക്ക് വ്യവസായം മാറിക്കൊണ്ടിരിക്കുകയാണ്.

പ്രധാന കാര്യങ്ങൾ

മറഞ്ഞിരിക്കുന്ന ചിലവ് വർദ്ധനവ്: ടോക്കൺ നിരക്കുകൾ ഒരുപോലെയാണെങ്കിലും, വർദ്ധിച്ച ടോക്കൺ ഉപയോഗം കാരണം Sonnet 4.6-നെ അപേക്ഷിച്ച് Sonnet 5 ഓരോ ടാസ്കിനും ഏകദേശം 90% കൂടുതൽ ചിലവേറിയതാണ്.
ബെഞ്ച്മാർക്ക് പ്രകടനം: 53 പോയിന്റോടെ Sonnet 5 ആഗോളതലത്തിൽ അഞ്ചാം സ്ഥാനത്താണ്. ഏജന്റിക് ലൂപ്പുകളിലും SciCode, Terminal-Bench തുടങ്ങിയ പ്രത്യേക ബെഞ്ച്മാർക്കുകളിലും വലിയ മുന്നേറ്റം ഇത് കാണിക്കുന്നു.
വിലയിലെ വ്യത്യാസം: യഥാർത്ഥ ബുദ്ധിപരമായ ബെഞ്ച്മാർക്കുകൾ ഉപയോഗിച്ച് അളക്കുമ്പോൾ, "കുറഞ്ഞ വിലയുള്ള" Sonnet 5, പ്രീമിയം മോഡലായ Opus 4.8-നേക്കാൾ ($1.97) ഓരോ ടാസ്കിനും കൂടുതൽ ($2.29) ചിലവാകുന്നു.

Claude Sonnet 5: ഉയർന്ന പ്രകടനം വലിയ വില വർദ്ധനവിനെ മറച്ചുവെക്കുന്നു

Claude Sonnet 5: ഉയർന്ന പ്രകടനം വലിയ വിലവർദ്ധനവിനെ മറച്ചുവെക്കുന്നു

ബുദ്ധിപരമായ നേട്ടങ്ങളും ടോക്കൺ ഉപയോഗവും തമ്മിലുള്ള വ്യത്യാസം

മാറ്റമില്ലാത്ത ടോക്കൺ നിരക്കുകളുടെ മിഥ്യാധാരണ

മത്സര സമ്മർദ്ദങ്ങളും സുതാര്യതയുടെ ആവശ്യകതയും

പ്രധാന കാര്യങ്ങൾ

Continue reading

Snowflake സിഇഒ: വളരെ കുറഞ്ഞ ചിലവിൽ GLM 5.2, Claude Opus 4.7-ന് വെല്ലുവിളിയാകുന്നു

Lindy Swaps Claude for DeepSeek to Save Millions in AI Costs

Anthropic Launches Claude Sonnet 5 and Restores Frontier Models

Anthropic Launches Claude Sonnet 5: The New Frontier of Agentic AI

Anthropic Launches Claude Sonnet 5 to Power Affordable AI Agents