Anthropic ने Claude Sonnet 5 लॉन्च किया: Agentic AI का नया क्षितिज

Anthropic ने आधिकारिक तौर पर Claude Sonnet 5 रिलीज़ किया है, जो एक शक्तिशाली मॉडल है जिसे मिड-टियर और फ्लैगशिप AI सीरीज़ के बीच प्रदर्शन के अंतर को पाटने के लिए डिज़ाइन किया गया है। एजेंटिक क्षमताओं (agentic capabilities)—जैसे कि टूल्स का उपयोग करने, ब्राउज़ करने और जटिल योजनाओं को निष्पादित करने की क्षमता—को प्राथमिकता देकर, यह रिलीज़ स्वायत्त (autonomous) AI वर्कफ़्लो की ओर एक बदलाव का संकेत देती है।

Opus सीरीज़ के साथ अंतर को कम करना

Sonnet 5 का सबसे उल्लेखनीय पहलू यह है कि यह काफी बड़े और अधिक महंगे Opus 4.8 के प्रदर्शन के कितना करीब पहुँचता है। अभूतपूर्व बेंचमार्क में, Sonnet 5 ने प्रदर्शित किया है कि "मिड-साइज़्ड" मॉडल अब उन कार्यों को भी संभाल सकते हैं जो पहले केवल फ्रंटियर-क्लास इंटेलिजेंस के लिए आरक्षित थे।

मल्टीडिसीप्लिनरी रीजनिंग बेंचमार्क, Humanity's Last Exam पर, Sonnet 5 ने टूल्स का उपयोग करते हुए 57.4% का स्कोर प्राप्त किया, जो लगभग Opus 4.8 के 57.9% के स्कोर के बराबर है। सबसे प्रभावशाली बात यह है कि रियल-वर्ल्ड नॉलेज टास्क बेंचमार्क GDPval-AA v2 पर, Sonnet 5 ने वास्तव में Opus 4.8 को पीछे छोड़ दिया, और फ्लैगशिप के 1,615 अंकों के मुकाबले 1,618 अंक प्राप्त किए। यह सुझाव देता है कि विशिष्ट ज्ञान-प्रधान (knowledge-heavy) वर्कफ़्लो के लिए, Sonnet 5 की दक्षता Opus सीरीज़ के विशाल पैमाने (raw scale) से अधिक प्रभावी हो सकती है।

एजेंटिक प्रदर्शन में एक बड़ी छलांग

Anthropic ने Sonnet 5 को विशेष रूप से अपने अब तक के सबसे "एजेंटिक" मॉडल के रूप में तैयार किया है। इसका अर्थ है कि मॉडल को मल्टी-स्टेप उद्देश्यों को पूरा करने के लिए वेब ब्राउज़र और टर्मिनल जैसे वातावरणों के साथ इंटरैक्ट करने के लिए ऑप्टिमाइज़ किया गया है। डेटा इसके पूर्ववर्ती, Sonnet 4.6 की तुलना में एक महत्वपूर्ण उछाल दिखाता है:

  • SWE-bench Pro (Agentic Coding): Sonnet 5 63.2% तक पहुँच गया, जो Sonnet 4.6 के 58.1% से अधिक है (Opus 4.8 के 69.2% से पीछे)।
  • Terminal-Bench 2.1: Sonnet 4.6 के 67.0% की तुलना में 80.4% की एक बड़ी छलांग।
  • OSWorld-Verified (Computer Use): मॉडल ने 81.2% स्कोर किया, जो पिछले संस्करण द्वारा दर्ज किए गए 78.5% से अधिक है।

साइबर सुरक्षा और सुरक्षा बाधाओं का प्रबंधन

यह लॉन्च Anthropic के लिए एक संवेदनशील समय पर आया है, क्योंकि साइबर सुरक्षा संबंधी चिंताओं के कारण अमेरिकी सरकार ने उनके Mythos 5 और Fable 5 मॉडलों पर प्रतिबंध लगा दिया है। इसी तरह की बाधाओं से बचने के लिए, Anthropic ने यह सुनिश्चित किया है कि Sonnet 5 को विशेष साइबर सुरक्षा कार्यों पर प्रशिक्षित नहीं किया गया है।

हालाँकि Sonnet 5, Sonnet 4.6 की तुलना में एक्सप्लॉइट इवैल्यूएशन (exploit evaluations) में थोड़ा अधिक आंशिक नियंत्रण दर (13.2%) दिखाता है, लेकिन सॉफ्टवेयर एक्सप्लॉइट लिखने में यह Opus 4.8 या Mythos 5 की तुलना में काफी कम सक्षम है। जोखिम को कम करने के लिए, Anthropic ने डिफ़ॉल्ट रूप से रीयल-टाइम साइबर सुरक्षा उपाय लागू किए हैं, साथ ही प्रॉम्प्ट इंजेक्शन (prompt injection) के खिलाफ बेहतर सुरक्षा और "सिकोफेंटिक" (sycophantic) व्यवहार (उपयोगकर्ता की गलतियों से सहमत होने की प्रवृत्ति) में कमी की है।

उपलब्धता और "टोकन विरोधाभास"

Claude Sonnet 5 अब Claude Platform और API (as claude-sonnet-5) के माध्यम से उपलब्ध है, जिसमें दस लाख (one-million) टोकन का कॉन्टेक्स्ट विंडो और जनवरी 2026 का ट्रेनिंग कटऑफ है।

हालाँकि Anthropic शुरुआती कीमत की पेशकश कर रहा है—31 अगस्त, 2026 तक प्रति मिलियन इनपुट टोकन के लिए $2 और प्रति मिलियन आउटपुट टोकन के लिए $10—डेवलपर्स को "टोकन विरोधाभास" (token paradox) के प्रति सावधान रहना चाहिए। क्योंकि मॉडल अधिक एजेंटिक है और अधिक पुनरावृत्तिपूर्ण तर्क (iterative reasoning) में संलग्न होता है, यह पिछले संस्करणों की तुलना में एक एकल कार्य को पूरा करने के लिए काफी अधिक टोकन का उपयोग कर सकता है, जो संभावित रूप से प्रति-टोकन कम लागत के लाभ को समाप्त कर सकता है।

मुख्य बातें

  • प्रदर्शन समानता (Performance Parity): Sonnet 5 विशिष्ट रीजनिंग और नॉलेज वर्क बेंचमार्क में फ्लैगशिप Opus 4.8 के बराबर है या उससे भी बेहतर प्रदर्शन करता है।
  • एजेंटिक फोकस: मॉडल कोडिंग (SWE-bench) और टर्मिनल इंटरैक्शन में भारी सुधार दिखाता है, जो इसे स्वायत्त टूल उपयोग के लिए आदर्श बनाता है।
  • रणनीतिक सुरक्षा: Anthropic ने इस मॉडल को अधिक विवादास्पद, उच्च-जोखिम वाले फ्रंटियर मॉडलों से अलग करने के लिए अंतर्निहित साइबर सुरक्षा उपायों को प्राथमिकता दी है।