Anthropic એ Claude Sonnet 5 લોન્ચ કર્યું: Agentic AI ની નવી સીમા
Anthropic એ સત્તાવાર રીતે Claude Sonnet 5 રિલીઝ કર્યું છે, જે મિડ-ટિયર અને ફ્લેગશિપ AI શ્રેણીઓ વચ્ચેના પ્રદર્શનના તફાવતને ઘટાડવા માટે રચાયેલ એક શક્તિશાળી મોડેલ છે. એજન્ટિક ક્ષમતાઓને—જેમ કે સાધનોનો ઉપયોગ કરવાની, બ્રાઉઝ કરવાની અને જટિલ યોજનાઓ અમલમાં મૂકવાની ક્ષમતા—પ્રાથમિકતા આપીને, આ રિલીઝ સ્વાયત્ત (autonomous) AI વર્કફ્લો તરફના પરિવર્તનનો સંકેત આપે છે.
Opus શ્રેણી સાથેનું અંતર ઘટાડવું
Sonnet 5 નો સૌથી આકર્ષક પાસા એ છે કે તે ઘણું મોટું અને વધુ ખર્ચાળ Opus 4.8 ના પ્રદર્શનની કેટલી નજીક પહોંચે છે. ક્રાંતિકારી બેન્ચમાર્કસમાં, Sonnet 5 એ સાબિત કર્યું છે કે "મધ્યમ કદના" મોડેલ્સ હવે એવા કાર્યો કરી શકે છે જે અગાઉ માત્ર ફ્રન્ટિયર-ક્લાસ બુદ્ધિ (frontier-class intelligence) માટે જ અનામત હતા.
મલ્ટિડિસિપ્લિનરી રીઝનિંગ બેન્ચમાર્ક, Humanity's Last Exam પર, Sonnet 5 એ સાધનોનો ઉપયોગ કરીને 57.4% સ્કોર મેળવ્યો, જે લગભગ Opus 4.8 ના 57.9% સ્કોરની બરાબરી કરે છે. સૌથી આશ્ચર્યજનક રીતે, રિયલ-વર્લ્ડ નોલેજ ટાસ્ક બેન્ચમાર્ક GDPval-AA v2 પર, Sonnet 5 એ ખરેખર Opus 4.8 ને વટાવી દીધું, ફ્લેગશિપના 1,615 પોઈન્ટ્સ સામે 1,618 પોઈન્ટ્સ મેળવ્યા. આ સૂચવે છે કે ચોક્કસ જ્ઞાન-લક્ષી વર્કફ્લો માટે, Sonnet 5 ની કાર્યક્ષમતા Opus શ્રેણીના વિશાળ સ્કેલ કરતા વધુ ફાયદાકારક હોઈ શકે છે.
Agentic પ્રદર્શનમાં એક મોટું કદમ
Anthropic એ Sonnet 5 ને અત્યાર સુધીનું તેનું સૌથી "agentic" મોડેલ બનાવવા માટે ખાસ રીતે તૈયાર કર્યું છે. આનો અર્થ એ છે કે મોડેલને મલ્ટી-સ્ટેપ ઉદ્દેશ્યો પૂર્ણ કરવા માટે વેબ બ્રાઉઝર્સ અને ટર્મિનલ્સ જેવા વાતાવરણ સાથે સંપર્ક કરવા માટે ઓપ્ટિમાઇઝ કરવામાં આવ્યું છે. ડેટા તેના પૂર્વવર્તી, Sonnet 4.6 ની સરખામણીમાં નોંધપાત્ર ઉછાળો દર્શાવે છે:
- SWE-bench Pro (Agentic Coding): Sonnet 5 એ 63.2% સુધી પહોંચ્યું, જે Sonnet 4.6 ના 58.1% કરતા વધુ છે (Opus 4.8 ના 69.2% થી પાછળ).
- Terminal-Bench 2.1: Sonnet 4.6 ના 67.0% ની સરખામણીમાં 80.4% સુધીનો મોટો ઉછાળો.
- OSWorld-Verified (Computer Use): મોડેલે 81.2% સ્કોર કર્યો, જે અગાઉના વર્ઝન દ્વારા નોંધાયેલા 78.5% કરતા વધુ છે.
સાયબર સિક્યુરિટી અને સુરક્ષા મર્યાદાઓને નેવિગેટ કરવું
સાયબર સિક્યુરિટીની ચિંતાઓને કારણે તેમના Mythos 5 અને Fable 5 મોડેલ્સ પર યુએસ સરકારના પ્રતિબંધો આવ્યા બાદ, Anthropic માટે આ લોન્ચિંગ એક સંવેદનશીલ સમયે આવ્યું છે. સમાન અવરોધોથી બચવા માટે, Anthropic એ સુનિશ્ચિત કર્યું છે કે Sonnet 5 ને વિશિષ્ટ સાયબર સિક્યુરિટી કાર્યો પર તાલીમ આપવામાં આવી નથી.
જોકે Sonnet 5 એ એક્સપ્લોઇટ ઇવેલ્યુએશનમાં (exploit evaluations) Sonnet 4.6 કરતા થોડો ઊંચો પાર્શિયલ કંટ્રોલ રેટ (13.2%) દર્શાવે છે, તેમ છતાં સોફ્ટવેર એક્સપ્લોઇટ્સ લખવામાં તે Opus 4.8 અથવા Mythos 5 કરતા નોંધપાત્ર રીતે ઓછી સક્ષમ છે. જોખમ ઘટાડવા માટે, Anthropic એ ડિફોલ્ટ તરીકે રીઅલ-ટાઇમ સાયબર સેફગાર્ડ્સ લાગુ કર્યા છે, સાથે જ પ્રોમ્પ્ટ ઇન્જેક્શન (prompt injection) સામે સુધારેલી સુરક્ષા અને "sycophantic" વર્તણૂક (વપરાશકર્તાની ભૂલો સાથે માત્ર સહમત થવાની વૃત્તિ) માં ઘટાડો કર્યો છે.
ઉપલબ્ધતા અને "Token Paradox"
Claude Sonnet 5 હવે Claude Platform અને API (જેમ કે claude-sonnet-5) દ્વારા ઉપલબ્ધ છે, જેમાં એક મિલિયન-ટોકન કોન્ટેક્સ્ટ વિન્ડો અને જાન્યુઆરી 2026 સુધીનું ટ્રેનિંગ કટઓફ છે.
જોકે Anthropic પ્રારંભિક કિંમત ઓફર કરી રહ્યું છે—31 ઓગસ્ટ, 2026 સુધી મિલિયન ઇનપુટ ટોકન્સ દીઠ $2 અને મિલિયન આઉટપુટ ટોકન્સ દીઠ $10—ડેવલપર્સે "token paradox" થી સાવધ રહેવું જોઈએ. કારણ કે મોડેલ વધુ agentic છે અને વધુ ઇટરેટિવ રીઝનિંગ (iterative reasoning) માં સામેલ થાય છે, તે અગાઉના વર્ઝનની સરખામણીમાં એક સિંગલ કાર્ય પૂર્ણ કરવા માટે નોંધપાત્ર રીતે વધુ ટોકન્સનો ઉપયોગ કરી શકે છે, જે સંભવતઃ પ્રતિ-ટોકન ઓછી કિંમતને સરભર કરી શકે છે.
મુખ્ય મુદ્દાઓ
- Performance Parity: Sonnet 5 ચોક્કસ રીઝનિંગ અને નોલેજ વર્ક બેન્ચમાર્કસમાં ફ્લેગશિપ Opus 4.8 ની બરાબરી કરે છે અથવા તેને હરાવે છે.
- Agentic Focus: મોડેલ કોડિંગ (SWE-bench) અને ટર્મિનલ ઇન્ટરેક્શનમાં મોટો સુધારો દર્શાવે છે, જે તેને સ્વાયત્ત સાધનોના ઉપયોગ માટે આદર્શ બનાવે છે.
- Strategic Safety: Anthropic એ આ મોડેલને વધુ વિવાદાસ્પદ, ઉચ્ચ-જોખમ ધરાવતા ફ્રન્ટિયર મોડેલ્સથી અલગ પાડવા માટે ઇન-બિલ્ટ સાયબર સેફગાર્ડ્સને પ્રાથમિકતા આપી છે.
