Anthropic Claude Sonnet 5 പുറത്തിറക്കി: ഏജന്റിക് AI-യുടെ പുതിയ അതിർത്തി

മിഡ്-ടിയർ (mid-tier), ഫ്ലാഗ്ഷിപ്പ് (flagship) AI സീരീസുകൾ തമ്മിലുള്ള പ്രകടന écartം കുറയ്ക്കുന്നതിനായി രൂപകൽപ്പന ചെയ്ത കരുത്തുറ്റ മോഡലായ Claude Sonnet 5 Anthropic ഔദ്യോഗികമായി പുറത്തിറക്കി. ടൂളുകൾ ഉപയോഗിക്കാനും, ബ്രൗസ് ചെയ്യാനും, സങ്കീർണ്ണമായ പ്ലാനുകൾ നടപ്പിലാക്കാനുമുള്ള 'ഏജന്റിക്' (agentic) കഴിവുകൾക്ക് മുൻഗണന നൽകുന്നതിലൂടെ, സ്വയംഭരണാധികാരമുള്ള (autonomous) AI വർക്ക്ഫ്ലോകളിലേക്കുള്ള ഒരു മാറ്റമാണ് ഈ റിലീസ് സൂചിപ്പിക്കുന്നത്.

Opus സീരീസുമായി പ്രകടന écartം കുറയ്ക്കുന്നു

Sonnet 5-ന്റെ ഏറ്റവും ശ്രദ്ധേയമായ വശം, കൂടുതൽ വലുതും വിലകൂടിയതുമായ Opus 4.8-ന്റെ പ്രകടനത്തോട് ഇത് എത്രത്തോളം അടുക്കുന്നു എന്നതാണ്. വിപ്ലവകരമായ ബെഞ്ച്മാർക്കുകളിൽ, മുൻപ് 'ഫ്രോണ്ടിയർ-ക്ലാസ്' (frontier-class) ബുദ്ധിശക്തി ആവശ്യമുള്ള ജോലികൾ പോലും ഇപ്പോൾ "മിഡ്-സൈസ്" മോഡലുകൾക്ക് ചെയ്യാൻ കഴിയുമെന്ന് Sonnet 5 തെളിയിച്ചു.

ബഹുതലമായ യുക്തിചിന്ത അളക്കുന്ന Humanity's Last Exam എന്ന ബെഞ്ച്മാർക്കിൽ, ടൂളുകൾ ഉപയോഗിച്ച് Sonnet 5 57.4% സ്കോർ നേടി, ഇത് Opus 4.8-ന്റെ 57.9% സ്കോറിനോട് ഏകദേശം തുല്യമാണ്. ഏറ്റവും അത്ഭുതകരമായ കാര്യം, യഥാർത്ഥ ലോക അറിവ് പരിശോധിക്കുന്ന GDPval-AA v2 എന്ന ബെഞ്ച്മാർക്കിൽ Sonnet 5, Opus 4.8-നെ മറികടന്നു; ഫ്ലാഗ്ഷിപ്പ് മോഡലിന്റെ 1,615 പോയിന്റിന് বিপরীতে Sonnet 5 1,618 പോയിന്റ് നേടി. അറിവ് അടിസ്ഥാനമാക്കിയുള്ള പ്രത്യേക വർക്ക്ഫ്ലോകളിൽ, Opus സീരീസിന്റെ വലിപ്പത്തേക്കാൾ Sonnet 5-ന്റെ കാര്യക്ഷമത പ്രസക്തമായേക്കാം എന്ന് ഇത് സൂചിപ്പിക്കുന്നു.

ഏജന്റിക് പ്രകടനത്തിൽ വലിയ കുതിച്ചുചാട്ടം

Anthropic തങ്ങളുടെ ഏറ്റവും "ഏജന്റിക്" മോഡലായി Sonnet 5-നെ പ്രത്യേകം രൂപകൽപ്പന ചെയ്തിട്ടുണ്ട്. അതായത്, വെബ് ബ്രൗസറുകൾ, ടെർമിനലുകൾ തുടങ്ങിയ ചുറ്റുപാടുകളുമായി സംവദിച്ചുകൊണ്ട് ബഹുതല ലക്ഷ്യങ്ങൾ പൂർത്തിയാക്കാൻ ഈ മോഡൽ സജ്ജമാണ്. ഇതിന്റെ മുൻഗാമിയായ Sonnet 4.6-നെ അപേക്ഷിച്ച് വലിയ മുന്നേറ്റമാണ് കണക്കുകൾ കാണിക്കുന്നത്:

  • SWE-bench Pro (Agentic Coding): Sonnet 4.6-ലെ 58.1%-ൽ നിന്ന് Sonnet 5 63.2% എന്ന നിലയിലേക്ക് ഉയർന്നു (Opus 4.8-ന്റെ 69.2%-ന് പിന്നിലാണ്).
  • Terminal-Bench 2.1: Sonnet 4.6-ന്റെ 67.0%-ൽ നിന്ന് 80.4% എന്ന വലിയ കുതിച്ചുചാട്ടം.
  • OSWorld-Verified (Computer Use): മുൻ പതിപ്പ് രേഖപ്പെടുത്തിയ 78.5%-നെ മറികടന്ന് ഈ മോഡൽ 81.2% സ്കോർ ചെയ്തു.

സൈബർ സുരക്ഷയും സുരക്ഷാ നിയന്ത്രണങ്ങളും കൈകാര്യം ചെയ്യൽ

സൈബർ സുരക്ഷാ ആശങ്കകൾ കാരണം Mythos 5, Fable 5 മോഡലുകൾക്ക് യുഎസ് സർക്കാർ നിയന്ത്രണങ്ങൾ ഏർപ്പെടുത്തിയ സാഹചര്യത്തിൽ, Anthropic-നെ സംബന്ധിച്ചിടത്തോളം വളരെ സെൻസിറ്റീവ് ആയ ഒരു സമയത്താണ് ഈ ലോഞ്ച് നടക്കുന്നത്. സമാനമായ തടസ്സങ്ങൾ ഒഴിവാക്കാൻ, പ്രത്യേക സൈബർ സുരക്ഷാ ടാസ്ക്കുകൾ ഉപയോഗിച്ച് Sonnet 5 പരിശീലിപ്പിച്ചിട്ടില്ലെന്ന് Anthropic ഉറപ്പുവരുത്തിയിട്ടുണ്ട്.

എക്സ്പ്ലോയിറ്റ് ഇവാലുവേഷനുകളിൽ (exploit evaluations) Sonnet 4.6-നേക്കാൾ അല്പം ഉയർന്ന പാർട്ടിയൽ കൺട്രോൾ റേറ്റ് (13.2%) Sonnet 5 കാണിക്കുന്നുണ്ടെങ്കിലും, സോഫ്റ്റ്‌വെയർ എക്സ്പ്ലോയിറ്റുകൾ എഴുതുന്ന കാര്യത്തിൽ Opus 4.8 അല്ലെങ്കിൽ Mythos 5-നെ അപേക്ഷിച്ച് ഇതിന് വളരെ കുറഞ്ഞ കഴിവേയുള്ളൂ. അപകടസാധ്യത കുറയ്ക്കുന്നതിനായി, Anthropic ഡിഫോൾട്ടായി റിയൽ-ടൈം സൈബർ സുരക്ഷാ സംവിധാനങ്ങൾ നടപ്പിലാക്കിയിട്ടുണ്ട്. കൂടാതെ, പ്രോംപ്റ്റ് ഇൻജക്ഷനെതിരെയുള്ള (prompt injection) പ്രതിരോധം മെച്ചപ്പെടുത്തുകയും "സിക്കോഫാന്റിക്" (sycophantic) പെരുമാറ്റം (ഉപയോക്താവിന്റെ തെറ്റുകളോട് വെറുതെ യോജിക്കാനുള്ള പ്രവണത) കുറയ്ക്കുകയും ചെയ്തിട്ടുണ്ട്.

ലഭ്യതയും "ടോക്കൺ പാരഡോക്സും" (Token Paradox)

Claude Sonnet 5 ഇപ്പോൾ Claude പ്ലാറ്റ്‌ഫോമിലൂടെയും API വഴിയും (claude-sonnet-5 ആയി) ലഭ്യമാണ്. ഇതിന് പത്ത് ലക്ഷം (one-million) ടോക്കണുകളുടെ കോൺടെക്സ്റ്റ് വിൻഡോയും 2026 ജനുവരി വരെയുള്ള ട്രെയിനിംഗ് ഡാറ്റയും ഉണ്ട്.

2026 ഓഗസ്റ്റ് 31 വരെ Anthropic ആകർഷകമായ നിരക്കുകൾ വാഗ്ദാനം ചെയ്യുന്നുണ്ടെങ്കിലും—ഒരു ദശലക്ഷം ഇൻപുട്ട് ടോക്കണുകൾക്ക് $2, ഒരു ദശലക്ഷം ഔട്ട്പുട്ട് ടോക്കണുകൾക്ക് $10—ഡെവലപ്പർമാർ "ടോക്കൺ പാരഡോക്സിനെ" കുറിച്ച് ജാഗ്രത പാലിക്കണം. ഈ മോഡൽ കൂടുതൽ ഏജന്റിക് ആയതുകൊണ്ടും കൂടുതൽ ഇറ്ററേറ്റീവ് റീസണിംഗിൽ (iterative reasoning) ഏർപ്പെടുന്നതുകൊണ്ടും, ഒരു ജോലി പൂർത്തിയാക്കാൻ മുൻ പതിപ്പുകളെ അപേക്ഷിച്ച് കൂടുതൽ ടോക്കണുകൾ ഉപയോഗിച്ചേക്കാം. ഇത് കുറഞ്ഞ ടോക്കൺ നിരക്കിന്റെ ഗുണം ഇല്ലാതാക്കിയേക്കാം.

പ്രധാന കാര്യങ്ങൾ

  • പ്രകടനത്തിലെ തുല്യത: ചില പ്രത്യേക യുക്തിചിന്താ-അറിവ് പരിശോധനകളിൽ Sonnet 5, ഫ്ലാഗ്ഷിപ്പ് മോഡലായ Opus 4.8-ന് തുല്യമായോ അതിനേക്കാൾ മികച്ച രീതിയിലോ പ്രവർത്തിക്കുന്നു.
  • ഏജന്റിക് ഫോക്കസ്: കോഡിംഗിലും (SWE-bench) ടെർമിനൽ ഇന്ററാക്ഷനിലും ഈ മോഡൽ വലിയ പുരോഗതി കാണിക്കുന്നു, ഇത് സ്വയംഭരണാധികാരമുള്ള ടൂൾ ഉപയോഗത്തിന് അനുയോജ്യമാക്കുന്നു.
  • തന്ത്രപരമായ സുരക്ഷ: വിവാദപരമായതും ഉയർന്ന റിസ്കുള്ളതുമായ ഫ്രോണ്ടിയർ മോഡലുകളിൽ നിന്ന് ഈ മോഡലിനെ വേർതിരിച്ചറിയാൻ Anthropic ഇതിൽ ഇൻബിൽറ്റ് സൈബർ സുരക്ഷാ സംവിധാനങ്ങൾക്ക് മുൻഗണന നൽകിയിട്ടുണ്ട്.