తక్కువ ఖర్చుతో కూడిన AI ఏజెంట్లను నడపడానికి Anthropic, Claude Sonnet 5ను విడుదల చేసింది

Anthropic అధికారికంగా Claude Sonnet 5ను విడుదల చేసింది. ఇది హై-ఎండ్ రీజనింగ్ (reasoning) మరియు తక్కువ ఖర్చుతో కూడిన స్వయంప్రతిపత్తితో కూడిన ఎగ్జిక్యూషన్ (autonomous execution) మధ్య ఉన్న అంతరాన్ని తగ్గించడానికి ప్రత్యేకంగా రూపొందించబడిన ఒక మిడ్-సైజ్ మోడల్. టూల్స్‌ను ఉపయోగించడం, ప్లాన్ చేయడం మరియు పునరావృతం (iterate) చేసే "ఏజెంటిక్" (agentic) సామర్థ్యాలకు ప్రాధాన్యత ఇవ్వడం ద్వారా, ఆటోమేటెడ్ వర్క్‌ఫ్లోలను నిర్మిస్తున్న డెవలపర్ల కోసం Sonnet 5ను ఒక ప్రధాన ఇంజిన్‌గా Anthropic సిద్ధం చేస్తోంది.

ఏజెంటిక్ ఇంటెలిజెన్స్ వైపు మళ్లుతున్న పోకడ

ప్రస్తుత AI పోటీలో, పరిశ్రమ కేవలం సాధారణ చాట్‌బాట్‌ల స్థాయి నుండి స్వయంప్రతిపత్తి కలిగిన ఏజెంట్ల (autonomous agents) వైపు మళ్లుతోంది. OpenAI యొక్క GPT-5.6 Sol మరియు Google యొక్క Gemini 3.5 Flash వంటి చర్యల తర్వాత Anthropic ఈ విడుదలను చేసింది, ఇది ఏజెంటిక్ పనితీరు (agentic performance) అనేది కొత్త ప్రామాణికం (baseline) అని సూచిస్తోంది.

Claude Sonnet 5 ఒక స్వయంప్రతిపత్తి కలిగిన ఆపరేటర్‌గా పనిచేసేలా రూపొందించబడింది, ఇది మల్టీ-స్టెప్ టాస్క్‌లను పూర్తి చేయడానికి బ్రౌజర్‌లు మరియు టెర్మినల్‌లను ఉపయోగించగలదు. సంక్లిష్టమైన పనుల సమయంలో ఆగిపోయే మునుపటి వెర్షన్లలా కాకుండా, Sonnet 5 తన సొంత అవుట్‌పుట్‌ను "తనిఖీ చేసుకునే" (check its own output) మరియు ఎండ్-టు-ఎండ్ వర్క్‌ఫ్లోలను పూర్తి చేసే ప్రత్యేక సామర్థ్యాన్ని ప్రదర్శిస్తుంది. ఉదాహరణకు, Zapier ఇంజనీర్లు ఈ మోడల్ రెండు భాగాల టాస్క్‌ను విజయవంతంగా పూర్తి చేసినట్లు గమనించారు—Salesforce అకౌంట్ టైర్లను అప్‌డేట్ చేయడం మరియు ఎంటర్‌ప్రైజ్ లాంచ్ అనౌన్స్‌మెంట్లను పంపడం—ఈ ప్రక్రియ గతంలో మునుపటి మోడల్స్ మధ్యలోనే విఫలమయ్యేది.

పెర్ఫార్మెన్స్ బెంచ్‌మార్క్‌లు: దిగ్గజాలకు సవాలు విసురుతూ

Sonnet 5 ఒక మిడ్-సైజ్ మోడల్ అయినప్పటికీ, దాని పనితీరు (performance metrics) Anthropic యొక్క ఫ్లాగ్‌షిప్ మోడల్ అయిన Opus 4.8 కి దగ్గరగా ఉంది. ఏజెంటిక్ కోడింగ్ బెంచ్‌మార్క్‌లలో, Sonnet 5 63.2% స్కోరు సాధించింది, ఇది దాని మునుపటి వెర్షన్ Sonnet 4.6 (58.1%) కంటే గణనీయంగా ఎక్కువ మరియు Opus 4.8 (69.2%) కంటే స్వల్పంగా తక్కువ మాత్రమే.

విశేషమేమిటంటే, కొన్ని నిర్దిష్ట నాలెడ్జ్ వర్క్ బెంచ్‌మార్క్‌లలో, Sonnet 5 నిజానికి Opus 4.8 కంటే మెరుగైన పనితీరును కనబరిచింది. దీనివల్ల టాప్-టియర్ మోడల్ యొక్క అధిక ధర చెల్లించకుండానే లోతైన రీజనింగ్ కావాలనుకునే డెవలపర్లకు ఇది ఒక అత్యంత సమర్థవంతమైన ఎంపికగా మారింది. అత్యంత ఖచ్చితత్వం మరియు సూక్ష్మమైన తీర్పుల (subtle judgment) కోసం Opus 4.8 ప్రామాణికంగా ఉన్నప్పటికీ, రోజువారీ ఆటోమేషన్ కోసం నాణ్యత మరియు ఖర్చు మధ్య సరైన సమతుల్యతను Sonnet 5 అందిస్తుందని Anthropic పేర్కొంది.

దూకుడు ధరలు మరియు భద్రతా ప్రమాణాలు

వినియోగదారులను ఆకర్షించడానికి, Anthropic పోటీతత్వంతో కూడిన ధరల నిర్మాణాన్ని ప్రవేశపెట్టింది. ఆగస్టు 31 వరకు, Sonnet 5 ధర ప్రతి మిలియన్ ఇన్‌పుట్ టోకెన్లకు $2 మరియు ప్రతి మిలియన్ అవుట్‌పుట్ టోకెన్లకు $10 గా ఉంది. ఈ కాలం తర్వాత, ధరలు ప్రతి మిలియన్ ఇన్‌పుట్ టోకెన్లకు $3 మరియు ప్రతి మిలియన్ అవుట్‌పుట్ టోకెన్లకు $15 కి మారుతాయి. ఈ ధరల వల్ల Sonnet 5, OpenAI యొక్క GPT-5.5 మరియు Google యొక్క Gemini 3.1 Pro కంటే తక్కువ ధరలో అందుబాటులో ఉంటుంది, అయితే ఇది Gemini 3.5 Flash కంటే ఖరీదైనదిగానే ఉంటుంది.

ఏజెంటిక్ డిప్లాయ్‌మెంట్లలో భద్రత కూడా అంతే కీలకం, ఇక్కడ దురుద్దేశపూరిత ఆదేశాలను తిరస్కరించే మోడల్ సామర్థ్యం చాలా ముఖ్యం. Sonnet 4.6 తో పోలిస్తే, Sonnet 5 లో మోసం చేయడం లేదా దుర్వినియోగానికి సహకరించడం వంటి "అవాంఛనీయ ప్రవర్తనల" (undesirable behaviors) రేటు తగ్గింది. ఇది ప్రాంప్ట్-ఇంజెక్షన్ (prompt-injection) దాడులను ఎదుర్కోవడంలో మెరుగైన స్థితిని మరియు తక్కువ స్థాయి సికోఫాంటిక్ (sycophantic) ప్రవర్తనను ప్రదర్శించింది, దీనివల్ల మిలియన్ల మంది వినియోగదారులకు టూల్స్‌ను అందించే బిల్డర్లకు ఇది మరింత నమ్మకమైన భాగస్వామిగా మారింది.

ముఖ్య అంశాలు

  • ఏజెంటిక్ ఫోకస్: Sonnet 5 స్వయంప్రతిపత్తి కలిగిన పనుల కోసం, అంటే టూల్స్ ఉపయోగించడం (బ్రౌజర్‌లు/టెర్మినల్‌లు) మరియు సెల్ఫ్-కరెక్షన్ (self-correction) కోసం ఆప్టిమైజ్ చేయబడింది, ఇది సంక్లిష్టమైన ఆటోమేషన్ కోసం దీనిని సరైనదిగా చేస్తుంది.
  • ఖర్చు-సమర్థత: ఈ మోడల్ Opus 4.8, GPT-5.5 మరియు Gemini 3.1 Pro వంటి ఫ్లాగ్‌షిప్ మోడళ్లకు అధిక పనితీరుతో కూడిన, తక్కువ ఖర్చుతో కూడిన ప్రత్యామ్నాయాన్ని అందిస్తుంది.
  • మెరుగైన భద్రత: దురుద్దేశపూరిత అభ్యర్థనలను తిరస్కరించడంలో మరియు ప్రాంప్ట్ ఇంజెక్షన్లను ఎదుర్కోవడంలో గణనీయమైన మెరుగుదలలు దీనిని ఏజెంటిక్ వర్క్‌ఫ్లోల కోసం మరింత సురక్షితంగా మారుస్తాయి.