Anthropic ने किफायती AI Agents को सशक्त बनाने के लिए Claude Sonnet 5 लॉन्च किया

Anthropic ने आधिकारिक तौर पर Claude Sonnet 5 रिलीज़ किया है, जो एक मिडसाइज मॉडल है जिसे विशेष रूप से उच्च-स्तरीय तर्क (high-end reasoning) और लागत प्रभावी स्वायत्त निष्पादन (cost-effective autonomous execution) के बीच के अंतर को पाटने के लिए तैयार किया गया है। "एजेंटिक" (agentic) क्षमताओं—जैसे कि टूल्स का उपयोग करने, योजना बनाने और दोहराव (iterate) करने की क्षमता—को प्राथमिकता देकर, Anthropic Sonnet 5 को ऑटोमेटेड वर्कफ़्लो बनाने वाले डेवलपर्स के लिए एक प्रमुख इंजन के रूप में पेश कर रहा है।

एजेंटिक इंटेलिजेंस की ओर बदलाव

वर्तमान AI हथियारों की दौड़ (arms race) में, उद्योग साधारण चैटबॉट्स से आगे बढ़कर स्वायत्त एजेंटों (autonomous agents) की ओर बढ़ रहा है। Anthropic की यह रिलीज़ OpenAI के GPT-5.6 Sol और Google के Gemini 3.5 Flash जैसे कदमों के बाद आई है, जो यह संकेत देती है कि एजेंटिक प्रदर्शन अब एक नया मानक (baseline) बन गया है।

Claude Sonnet 5 को एक स्वायत्त ऑपरेटर के रूप में कार्य करने के लिए डिज़ाइन किया गया है, जो मल्टी-स्टेप कार्यों को निष्पादित करने के लिए ब्राउज़र और टर्मिनल का उपयोग करने में सक्षम है। पिछले वर्ज़न के विपरीत, जो जटिल अनुक्रमों के दौरान रुक सकते थे, Sonnet 5 में "अपने स्वयं के आउटपुट की जांच करने" और एंड-टू-एंड वर्कफ़्लो को पूरा करने की एक अनूठी क्षमता है। उदाहरण के लिए, Zapier के इंजीनियरों ने पाया कि मॉडल ने सफलतापूर्वक दो चरणों वाला कार्य पूरा किया—Salesforce अकाउंट टियर को अपडेट करना और एंटरप्राइज लॉन्च घोषणाएं भेजना—एक ऐसी प्रक्रिया जिसमें पहले के मॉडल बीच में ही विफल हो जाते थे।

परफॉरमेंस बेंचमार्क: दिग्गजों की बराबरी

हालांकि Sonnet 5 एक मिडसाइज मॉडल है, लेकिन इसके परफॉरमेंस मेट्रिक्स Anthropic के फ्लैगशिप मॉडल, Opus 4.8 के करीब हैं। एजेंटिक कोडिंग बेंचमार्क पर, Sonnet 5 ने 63.2% स्कोर किया, जो इसके पूर्ववर्ती Sonnet 4.6 (58.1%) से काफी अधिक है, और यह केवल Opus 4.8 (69.2%) से थोड़ा पीछे है।

उल्लेखनीय रूप से, विशिष्ट नॉलेज वर्क बेंचमार्क में, Sonnet 5 ने वास्तव में Opus 4.8 से बेहतर प्रदर्शन किया। यह उन डेवलपर्स के लिए एक अत्यधिक कुशल विकल्प बनाता है जिन्हें टॉप-टियर मॉडल की प्रीमियम कीमत चुकाए बिना गहरे तर्क (deep reasoning) की आवश्यकता होती है। Anthropic का सुझाव है कि जहाँ Opus 4.8 अत्यधिक सटीकता और सूक्ष्म निर्णय लेने के लिए मानक बना हुआ है, वहीं Sonnet 5 दैनिक स्वचालन (day-to-day automation) के लिए गुणवत्ता और लागत का आदर्श संतुलन प्रदान करता है।

आक्रामक मूल्य निर्धारण और सुरक्षा मानक

इसे अपनाने के लिए प्रोत्साहित करने हेतु, Anthropic ने एक प्रतिस्पर्धी मूल्य निर्धारण संरचना पेश की है। 31 अगस्त तक, Sonnet 5 की कीमत $2 प्रति मिलियन इनपुट टोकन और $10 प्रति मिलियन आउटपुट टोकन है। इस अवधि के बाद, कीमतें बदलकर $3 प्रति मिलियन इनपुट टोकन और $15 प्रति मिलियन आउटपुट टोकन हो जाएंगी। यह स्थिति Sonnet 5 को OpenAI के GPT-5.5 और Google के Gemini 3.1 Pro की तुलना में अधिक किफायती बनाती है, हालांकि यह Gemini 3.5 Flash से महंगा बना हुआ है।

एजेंटिक डिप्लॉयमेंट में सुरक्षा भी उतनी ही महत्वपूर्ण है, जहाँ दुर्भावनापूर्ण कमांड (malicious commands) को अस्वीकार करने की मॉडल की क्षमता सर्वोपरि है। Sonnet 4.6 की तुलना में, Sonnet 5 में "अवांछनीय व्यवहारों" (undesirable behaviors), जैसे कि धोखा देना या दुरुपयोग में सहयोग करना, की दर कम देखी गई है। इसने प्रॉम्प्ट-इंजेक्शन हमलों (prompt-injection attacks) के खिलाफ बेहतर लचीलापन और चापलूसी वाले व्यवहार (sycophantic behavior) की कम दर भी प्रदर्शित की है, जो इसे लाखों उपयोगकर्ताओं के लिए टूल्स तैनात करने वाले बिल्डर्स के लिए एक अधिक विश्वसनीय साथी बनाता है।

मुख्य बातें

  • एजेंटिक फोकस: Sonnet 5 को स्वायत्त कार्यों के लिए अनुकूलित किया गया है, जिसमें टूल्स का उपयोग (ब्राउज़र/टर्मिनल) और सेल्फ-करेक्शन शामिल है, जो इसे जटिल ऑटोमेशन के लिए आदर्श बनाता है।
  • लागत-दक्षता: यह मॉडल Opus 4.8, GPT-5.5 और Gemini 3.1 Pro जैसे फ्लैगशिप मॉडलों का एक उच्च-प्रदर्शन, कम लागत वाला विकल्प प्रदान करता है।
  • बेहतर सुरक्षा: दुर्भावनापूर्ण अनुरोधों को अस्वीकार करने और प्रॉम्प्ट इंजेक्शन का विरोध करने में महत्वपूर्ण सुधार इसे एजेंटिक वर्कफ़्लो के लिए सुरक्षित बनाते हैं।