Claude Sonnet 5: ഉയർന്ന പ്രകടനം വലിയ വിലവർദ്ധനവിനെ മറച്ചുവെക്കുന്നു
Anthropic-ന്റെ ഏറ്റവും പുതിയ റിലീസായ Claude Sonnet 5, മികച്ച ബെഞ്ച്മാർക്ക് നേട്ടങ്ങൾ കാഴ്ചവെക്കുന്നുണ്ടെങ്കിലും ഡെവലപ്പർമാർക്ക് ഇത് മറഞ്ഞിരിക്കുന്ന സാമ്പത്തിക ബാധ്യതയുണ്ടാക്കുന്നു. ഔദ്യോഗിക ടോക്കൺ നിരക്കുകളിൽ മാറ്റമില്ലെങ്കിലും, മോഡലിന്റെ വർദ്ധിച്ചുവരുന്ന വാചാലതയും (verbosity) ഏജന്റിക് സ്വഭാവവും (agentic behavior) ഓരോ ടാസ്കിനും വരുന്ന യഥാർത്ഥ ചിലവ് ഗണ്യമായി വർദ്ധിപ്പിക്കുന്നുവെന്ന് പുതിയ വിവരങ്ങൾ സൂചിപ്പിക്കുന്നു.
ബുദ്ധിപരമായ നേട്ടങ്ങളും ടോക്കൺ ഉപയോഗവും തമ്മിലുള്ള വ്യത്യാസം
Artificial Analysis Intelligence Index v4.1 അനുസരിച്ച്, Claude Sonnet 5 ഒരു പ്രധാന സാങ്കേതിക നാഴികക്കല്ല് കൈവരിച്ചിട്ടുണ്ട്. 53 പോയിന്റ് നേടിയ ഇത് ആഗോളതലത്തിൽ അഞ്ചാം സ്ഥാനത്താണ്; GPT-5.5 (high)-ന് തുല്യമായ പ്രകടനമാണ് ഇത് കാഴ്ചവെക്കുന്നത്. 47 പോയിന്റ് നേടിയ ഇതിന്റെ മുൻഗാമിയായ Sonnet 4.6-നേക്കാൾ മികച്ച പ്രകടനമാണ് ഇത് കാണിക്കുന്നത്. Terminal-Bench v2.1-ൽ 9 പോയിന്റും Humanity's Last Exam-ൽ 10 പോയിന്റും വർദ്ധനവ് ഉൾപ്പെടെയുള്ള വിവിധ സ്പെഷ്യലൈസ്ഡ് ബെഞ്ച്മാർക്കുകളിൽ ഈ പ്രകടന മുന്നേറ്റം വ്യക്തമാണ്.
എന്നിരുന്നാലും, ഈ ബുദ്ധിപരമായ നേട്ടങ്ങൾ കടുത്ത ടോക്കൺ ഉപയോഗത്തിന്റെ വില നൽകിയാണ് ലഭിക്കുന്നത്. AA-Briefcase, GDPval-AA തുടങ്ങിയ ഏജന്റ് അധിഷ്ഠിത നോളജ് വർക്ക് ബെഞ്ച്മാർക്കുകളിൽ, Sonnet 4.6-നെ അപേക്ഷിച്ച് Sonnet 5 ഏകദേശം മൂന്നിരട്ടി ഏജന്റ് ലൂപ്പുകൾ (agent loops) പ്രവർത്തിപ്പിക്കുന്നു. പരമാവധി പെർഫോമൻസ് സെറ്റിംഗുകളിൽ, മുൻതലമുറയെ അപേക്ഷിച്ച് ഓരോ ടാസ്കിനും ഏകദേശം 40% കൂടുതൽ ഔട്ട്പുട്ട് ടോക്കണുകൾ ഈ മോഡൽ ഉപയോഗിക്കുന്നു.
മാറ്റമില്ലാത്ത ടോക്കൺ നിരക്കുകളുടെ മിഥ്യാധാരണ
പുറമെ നിന്ന് നോക്കുമ്പോൾ, Anthropic അതിന്റെ വിലനിർണ്ണയ രീതി നിലനിർത്തിയിട്ടുണ്ട്: ഒരു ദശലക്ഷം ഇൻപുട്ട് ടോക്കണുകൾക്ക് $3-ഉം ഒരു ദശലക്ഷം ഔട്ട്പുട്ട് ടോക്കണുകൾക്ക് $15-ഉം ആണ് നിരക്ക്. ഇത് $5-ഉം $25-ഉം നിരക്കുള്ള Opus 4.8 വിഭാഗത്തേക്കാൾ കുറഞ്ഞ നിരക്കാണ്. എന്നിരുന്നാലും, "ടാസ്ക് പ്രകാരമുള്ള ചിലവ്" (cost per task) മറ്റൊരു കഥയാണ് പറയുന്നത്.
Intelligence Index അനുസരിച്ച് Sonnet 5 ഉപയോഗിച്ച് ഒരു ശരാശരി ടാസ്ക് പൂർത്തിയാക്കാൻ $2.29 ചിലവാകുന്നുവെന്നും, എന്നാൽ വിലകൂടിയ Opus 4.8-ന് വെറും $1.97 മാത്രമേ ചിലവാകുന്നുള്ളൂവെന്നും Artificial Analysis റിപ്പോർട്ട് ചെയ്യുന്നു. ഒരു ടാസ്കിന് ഏകദേശം $1.20 മാത്രം ചിലവാകയിരുന്ന Sonnet 4.6-ൽ നിന്ന് Sonnet 5-ലേക്ക് മാറുന്ന ഡെവലപ്പർമാരെ സംബന്ധിച്ചിടത്തോളം, ഇത് പ്രവർത്തനച്ചെലവ് ഏകദേശം ഇരട്ടിയാകുന്നതിന് തുല്യമാണ്. "മാറ്റമില്ലാത്ത" നിരക്കുകൾ പ്രഖ്യാപിച്ചിട്ടും ടോക്കണൈസറിലെ (tokenizer) മാറ്റങ്ങൾ കാരണം ചിലവ് 37.4% വരെ വർദ്ധിച്ച Opus 4.7 പോലുള്ള മുൻപത്തെ റിലീസുകളുടെ അതേ രീതിയാണിത്.
മത്സര സമ്മർദ്ദങ്ങളും സുതാര്യതയുടെ ആവശ്യകതയും
ചില ഏജന്റിക് ടാസ്ക്കുകളിൽ Sonnet 5 മികshowing ആണെങ്കിലും, ഉയർന്ന നിലവാരത്തിലുള്ള ഫിസിക്സ് റീസണിംഗിൽ (physics reasoning) ഇത് ഇപ്പോഴും പിന്നിലാണ്. Argonne National Labs-ന്റെ CritPt ബെഞ്ച്മാർക്കിൽ 17% മാത്രം സ്കോർ ചെയ്ത ഇത്, GLM-5.2, Claude Fable 5, GPT-5.5 തുടങ്ങിയ കരുത്തുറ്റ മോഡലുകൾക്ക് പിന്നിലായി.
ഈ പ്രകടന വ്യത്യാസവും വർദ്ധിച്ചുവരുന്ന ചിലവ് ഘടനയും Anthropic-നെ പ്രതിസന്ധിയിലാക്കുന്നു. Deepseek V4 Pro, GLM-5.2 തുടങ്ങിയ ചൈനീസ് എതിരാളികൾ വളരെ കുറഞ്ഞ ചിലവിൽ സമാനമായ മിഡ്-റേഞ്ച് പ്രകടനം വാഗ്ദാനം ചെയ്യുമ്പോൾ, Claude കുടുംബത്തിന്റെ ഈ "മറഞ്ഞിരിക്കുന്ന" വിലവർദ്ധനവ് വലിയ കമ്പനികൾ ഈ മോഡലുകൾ സ്വീകരിക്കുന്നതിൽ ഒരു പ്രധാന ഘടകമായി മാറുന്നു. ഏജന്റിക് വർക്ക്ഫ്ലോകളുടെ യഥാർത്ഥ കമ്പ്യൂട്ടേഷണൽ ലോഡ് പ്രതിഫലിപ്പിക്കാത്ത വെറും ടോക്കൺ എണ്ണങ്ങളെ ആശ്രയിക്കുന്നതിന് പകരം, ഒരു സ്റ്റാൻഡേർഡ് ടാസ്കിന് വരുന്ന ചിലവ് പോലുള്ള കൂടുതൽ സുതാര്യമായ അളവുകോലുകളിലേക്ക് വ്യവസായം മാറിക്കൊണ്ടിരിക്കുകയാണ്.
പ്രധാന കാര്യങ്ങൾ
- മറഞ്ഞിരിക്കുന്ന ചിലവ് വർദ്ധനവ്: ടോക്കൺ നിരക്കുകൾ ഒരുപോലെയാണെങ്കിലും, വർദ്ധിച്ച ടോക്കൺ ഉപയോഗം കാരണം Sonnet 4.6-നെ അപേക്ഷിച്ച് Sonnet 5 ഓരോ ടാസ്കിനും ഏകദേശം 90% കൂടുതൽ ചിലവേറിയതാണ്.
- ബെഞ്ച്മാർക്ക് പ്രകടനം: 53 പോയിന്റോടെ Sonnet 5 ആഗോളതലത്തിൽ അഞ്ചാം സ്ഥാനത്താണ്. ഏജന്റിക് ലൂപ്പുകളിലും SciCode, Terminal-Bench തുടങ്ങിയ പ്രത്യേക ബെഞ്ച്മാർക്കുകളിലും വലിയ മുന്നേറ്റം ഇത് കാണിക്കുന്നു.
- വിലയിലെ വ്യത്യാസം: യഥാർത്ഥ ബുദ്ധിപരമായ ബെഞ്ച്മാർക്കുകൾ ഉപയോഗിച്ച് അളക്കുമ്പോൾ, "കുറഞ്ഞ വിലയുള്ള" Sonnet 5, പ്രീമിയം മോഡലായ Opus 4.8-നേക്കാൾ ($1.97) ഓരോ ടാസ്കിനും കൂടുതൽ ($2.29) ചിലവാകുന്നു.
