Anthropic مدل Claude Sonnet 5 را عرضه کرد: مرز جدید هوش مصنوعی عاملمحور (Agentic AI)
شرکت Anthropic رسماً Claude Sonnet 5 را منتشر کرد؛ مدلی قدرتمند که برای پر کردن شکاف عملکردی میان سریهای میانرده و پرچمدار هوش مصنوعی طراحی شده است. این نسخه با اولویت دادن به قابلیتهای عاملمحور (agentic capabilities) — یعنی توانایی استفاده از ابزارها، مرور وب و اجرای برنامههای پیچیده — نشاندهنده تغییری به سمت جریانهای کاری خودگردان (autonomous) در هوش مصنوعی است.
کاهش شکاف با سری Opus
چشمگیرترین جنبه Sonnet 5 این است که عملکرد آن تا چه حد به مدل بسیار بزرگتر و گرانتر Opus 4.8 نزدیک شده است. در بنچمارکهای پیشگامانه، Sonnet 5 نشان داده است که مدلهای «میانرده» اکنون میتوانند وظایفی را انجام دهند که پیش از این مختص هوش مصنوعی در سطح مرزی (frontier-class) بود.
در بنچمارک استدلال چندرشتهای Humanity's Last Exam، مدل Sonnet 5 با استفاده از ابزارها به امتیاز ۵۷.۴٪ دست یافت که تقریباً با امتیاز ۵۷.۹٪ مدل Opus 4.8 برابری میکند. نکته خیرهکننده این است که در بنچمارک وظایف دانش دنیای واقعی GDPval-AA v2، مدل Sonnet 5 در واقع از Opus 4.8 پیشی گرفت و امتیاز ۱,۶۱۸ را در مقابل امتیاز ۱,۶۱۵ مدل پرچمدار کسب کرد. این امر نشان میدهد که برای جریانهای کاری خاص که دانشمحور هستند، کارایی Sonnet 5 ممکن است بر مقیاس خام سری Opus برتری داشته باشد.
جهشی عظیم در عملکرد عاملمحور
Anthropic بهطور ویژه Sonnet 5 را به گونهای مهندسی کرده است که تا به امروز «عاملمحورترین» مدل خود باشد. این بدان معناست که مدل برای تعامل با محیطهایی مانند مرورگرهای وب و ترمینالها جهت تکمیل اهداف چندمرحلهای بهینهسازی شده است. دادهها جهش قابلتوجهی را نسبت به نسل قبلی آن، یعنی Sonnet 4.6، نشان میدهند:
- SWE-bench Pro (کدنویسی عاملمحور): مدل Sonnet 5 به ۶۳.۲٪ رسید که نسبت به ۵۸.۱٪ در Sonnet 4.6 افزایش یافته است (و پس از Opus 4.8 با امتیاز ۶۹.۲٪ قرار میگیرد).
- Terminal-Bench 2.1: جهشی عظیم به ۸۰.۴٪ در مقایسه با ۶۷.۰٪ برای Sonnet 4.6.
- OSWorld-Verified (استفاده از کامپیوتر): این مدل امتیاز ۸۱.۲٪ را کسب کرد و از امتیاز ۷۸.۵٪ ثبتشده توسط نسخه قبلی فراتر رفت.
مدیریت محدودیتهای امنیت سایبری و ایمنی
این عرضه در زمان حساسی برای Anthropic انجام میشود؛ یعنی پس از اعمال محدودیتهای دولت ایالات متحده بر مدلهای Mythos 5 و Fable 5 آنها به دلیل نگرانیهای امنیت سایبری. برای جلوگیری از موانع مشابه، Anthropic اطمینان حاصل کرده است که Sonnet 5 بر روی وظایف تخصصی امنیت سایبری آموزش ندیده باشد.
اگرچه Sonnet 5 در ارزیابیهای اکسپلویت (exploit evaluations)، نرخ کنترل جزئی کمی بالاتر (۱۳.۲٪) نسبت به Sonnet 4.6 نشان میدهد، اما همچنان در نوشتن اکسپلویتهای نرمافزاری بهطور قابلتوجهی ضعیفتر از Opus 4.8 یا Mythos 5 عمل میکند. برای کاهش ریسک، Anthropic بهطور پیشفرض محافظهای سایبری بیدرنگ (real-time) را در کنار دفاعهای بهبودیافته در برابر تزریق دستور (prompt injection) و کاهش رفتارهای «تملقآمیز» (sycophantic) — یعنی تمایل به موافقت صرف با خطاهای کاربر — پیادهسازی کرده است.
در دسترس بودن و «پارادوکس توکن»
مدل Claude Sonnet 5 هماکنون از طریق Claude Platform و API (با شناسه claude-sonnet-5) در دسترس است که دارای پنجره بافت (context window) یک میلیون توکنی و تاریخ قطع دانش (training cutoff) ژانویه ۲۰۲۶ میباشد.
در حالی که Anthropic قیمتهای تشویقی ارائه میدهد — ۲ دلار به ازای هر میلیون توکن ورودی و ۱۰ دلار به ازای هر میلیون توکن خروجی تا ۳۱ اوت ۲۰۲۶ — توسعهدهندگان باید مراقب «پارادوکس توکن» باشند. از آنجایی که این مدل عاملمحورتر است و در استدلالهای تکرارشونده بیشتر مشارکت میکند، ممکن است برای تکمیل یک وظیفه واحد در مقایسه با نسخههای قبلی، توکنهای بسیار بیشتری مصرف کند که این امر پتانسیل دارد هزینه پایینتر هر توکن را خنثی کند.
نکات کلیدی
- برابری عملکرد: Sonnet 5 در بنچمارکهای خاص استدلال و دانش، با مدل پرچمدار Opus 4.8 برابری کرده یا حتی از آن پیشی میگیرد.
- تمرکز بر قابلیتهای عاملمحور: این مدل بهبودهای عظیمی در کدنویسی (SWE-bench) و تعامل با ترمینال نشان میدهد که آن را برای استفاده خودگردان از ابزارها ایدهآل میکند.
- ایمنی استراتژیک: Anthropic محافظهای سایبری داخلی را در اولویت قرار داده است تا این مدل را از مدلهای مرزی پرریسک و بحثبرانگیز متمایز کند.
