Anthropic Claude Sonnet 5 ని విడుదల చేసింది: ఏజెంటిక్ AI యొక్క నూతన సరిహద్దు

మిడ్-టియర్ మరియు ఫ్లాగ్‌షిప్ AI సిరీస్‌ల మధ్య పనితీరు వ్యత్యాసాన్ని తగ్గించడానికి రూపొందించబడిన శక్తివంతమైన మోడల్ Claude Sonnet 5 ని Anthropic అధికారికంగా విడుదల చేసింది. టూల్స్‌ను ఉపయోగించడం, బ్రౌజ్ చేయడం మరియు సంక్లిష్టమైన ప్రణాళికలను అమలు చేయడం వంటి ఏజెంటిక్ సామర్థ్యాలకు (agentic capabilities) ప్రాధాన్యత ఇవ్వడం ద్వారా, ఈ విడుదల స్వయంప్రతిపత్తి కలిగిన (autonomous) AI వర్క్‌ఫ్లోల వైపు ఒక మార్పును సూచిస్తోంది.

Opus సిరీస్‌తో వ్యత్యాసాన్ని తగ్గించడం

Sonnet 5 లో అత్యంత ఆకట్టుకునే అంశం ఏమిటంటే, ఇది చాలా పెద్దది మరియు ఖరీదైన Opus 4.8 పనితీరుకు ఎంత దగ్గరగా చేరుకుందనేది. విప్లవాత్మకమైన బెంచ్‌మార్క్‌లలో, "మిడ్-సైజ్" మోడల్స్ కూడా గతంలో ఫ్రంటియర్-క్లాస్ ఇంటెలిజెన్స్‌కు మాత్రమే పరిమితమైన పనులను ఇప్పుడు చేయగలవని Sonnet 5 నిరూపించింది.

బహుళ విభాగాల రీజనింగ్ బెంచ్‌మార్క్ అయిన Humanity's Last Exam లో, Sonnet 5 టూల్స్‌ను ఉపయోగించి 57.4% స్కోరు సాధించింది, ఇది దాదాపు Opus 4.8 సాధించిన 57.9% స్కోరుకు సమానంగా ఉంది. అత్యంత ఆశ్చర్యకరంగా, రియల్-వరల్డ్ నాలెడ్జ్ టాస్క్ బెంచ్‌మార్క్ GDPval-AA v2 లో, Sonnet 5 వాస్తవానికి Opus 4.8 ను అధిగమించి, ఫ్లాగ్‌షిప్ సాధించిన 1,615 పాయింట్ల కంటే ఎక్కువగా 1,618 పాయింట్లు సాధించింది. ఇది సూచించేదేమిటంటే, నిర్దిష్టమైన నాలెడ్జ్-హెవీ వర్క్‌ఫ్లోల కోసం, Opus సిరీస్ యొక్క భారీ పరిమాణం కంటే Sonnet 5 యొక్క సామర్థ్యం (efficiency) మెరుగ్గా ఉండవచ్చు.

ఏజెంటిక్ పనితీరులో భారీ అడుగు

Anthropic తన మొట్టమొదటి అత్యంత "ఏజెంటిక్" మోడల్‌గా Sonnet 5 ని ప్రత్యేకంగా రూపొందించింది. అంటే, బహుళ దశల లక్ష్యాలను పూర్తి చేయడానికి వెబ్ బ్రౌజర్‌లు మరియు టెర్మినల్స్ వంటి వాతావరణాలతో పరస్పర చర్య జరపడానికి ఈ మోడల్ ఆప్టిమైజ్ చేయబడింది. దీని మునుపటి వెర్షన్ Sonnet 4.6 తో పోలిస్తే గణనీయమైన వృద్ధిని ఈ డేటా చూపుతోంది:

  • SWE-bench Pro (Agentic Coding): Sonnet 4.6 లో 58.1% ఉండగా, Sonnet 5 63.2% కి చేరుకుంది (Opus 4.8 యొక్క 69.2% కంటే తక్కువ).
  • Terminal-Bench 2.1: Sonnet 4.6 లో 67.0% తో పోలిస్తే, ఇది 80.4% కి భారీగా పెరిగింది.
  • OSWorld-Verified (Computer Use): ఈ మోడల్ 81.2% స్కోరు సాధించి, మునుపటి వెర్షన్ నమోదు చేసిన 78.5% ను అధిగమించింది.

సైబర్‌సెక్యూరిటీ మరియు భద్రతా పరిమితులను అధిగమించడం

సైబర్‌సెక్యూరిటీ ఆందోళనల కారణంగా వారి Mythos 5 మరియు Fable 5 మోడళ్లపై అమెరికా ప్రభుత్వం విధించిన ఆంక్షల నేపథ్యంలో, Anthropic ఈ విడుదలను చాలా సున్నితమైన సమయంలో చేస్తోంది. ఇటువంటి అడ్డంకులను నివారించడానికి, Sonnet 5 ని ప్రత్యేకమైన సైబర్‌సెక్యూరిటీ పనులపై శిక్షణ ఇవ్వలేదని Anthropic నిర్ధారించింది.

ఎక్స్‌ప్లాయిట్ ఎవాల్యుయేషన్స్‌లో (exploit evaluations) Sonnet 5, Sonnet 4.6 కంటే స్వల్పంగా ఎక్కువ పార్షియల్ కంట్రోల్ రేటును (13.2%) చూపినప్పటికీ, సాఫ్ట్‌వేర్ ఎక్స్‌ప్లాయిట్‌లను వ్రాయడంలో ఇది Opus 4.8 లేదా Mythos 5 కంటే గణనీయంగా తక్కువ సామర్థ్యం కలిగి ఉంది. రిస్క్‌ను తగ్గించడానికి, Anthropic డిఫాల్ట్‌గా రియల్-టైమ్ సైబర్ సేఫ్‌గార్డ్‌లను అమలు చేసింది, అలాగే ప్రాంప్ట్ ఇంజెక్షన్ (prompt injection) కు వ్యతిరేకంగా మెరుగైన రక్షణలను మరియు "సైకోఫాంటిక్" (sycophantic) ప్రవర్తనను (వినియోగదారుల తప్పులతో కేవలం ఏకీభవించే ధోరణి) తగ్గించడాన్ని కూడా చేపట్టింది.

లభ్యత మరియు "టోకెన్ పారడాక్స్" (Token Paradox)

Claude Sonnet 5 ఇప్పుడు Claude Platform మరియు API (claude-sonnet-5) ద్వారా అందుబాటులో ఉంది. ఇది పది లక్షల (one-million) టోకెన్ల కాంటెక్స్ట్ విండోను మరియు జనవరి 2026 వరకు శిక్షణ పొందిన డేటాను కలిగి ఉంది.

Anthropic పరిచయ ధరలను అందిస్తున్నప్పటికీ—ఆగస్టు 31, 2026 వరకు ప్రతి మిలియన్ ఇన్‌పుట్ టోకెన్లకు $2 మరియు ప్రతి మిలియన్ అవుట్‌పుట్ టోకెన్లకు $10—డెవలపర్లు "టోకెన్ పారడాక్స్" పట్ల జాగ్రత్తగా ఉండాలి. ఈ మోడల్ మరింత ఏజెంటిక్‌గా ఉండటం మరియు ఎక్కువ ఇటరేటివ్ రీజనింగ్‌లో పాల్గొనడం వల్ల, మునుపటి వెర్షన్‌లతో పోలిస్తే ఒకే పనిని పూర్తి చేయడానికి ఇది గణనీయంగా ఎక్కువ టోకెన్లను వినియోగించవచ్చు, ఇది తక్కువ టోకెన్ ధర వల్ల కలిగే ప్రయోజనాన్ని తగ్గించవచ్చు.

ముఖ్య అంశాలు

  • పనితీరు సమానత్వం (Performance Parity): నిర్దిష్ట రీజనింగ్ మరియు నాలెడ్జ్ వర్క్ బెంచ్‌మార్క్‌లలో Sonnet 5, ఫ్లాగ్‌షిప్ Opus 4.8 కి సమానంగా లేదా దానిని మించి పనిచేస్తుంది.
  • ఏజెంటిక్ ఫోకస్: కోడింగ్ (SWE-bench) మరియు టెర్మినల్ ఇంటరాక్షన్‌లో ఈ మోడల్ భారీ మెరుగుదలలను చూపుతుంది, ఇది స్వయంప్రతిపత్తి కలిగిన టూల్ వినియోగానికి అనువైనదిగా చేస్తుంది.
  • వ్యూహాత్మక భద్రత: వివాదాస్పదమైన, అధిక-రిస్క్ కలిగిన ఫ్రంటియర్ మోడళ్ల నుండి ఈ మోడల్‌ను వేరు చేయడానికి Anthropic అంతర్నిర్మిత సైబర్ సేఫ్‌గార్డ్‌లకు ప్రాధాన్యత ఇచ్చింది.