Anthropic مدل Claude Sonnet 5 را عرضه کرد: مرز جدید هوش مصنوعی عامل‌محور (Agentic AI)

شرکت Anthropic رسماً Claude Sonnet 5 را منتشر کرد؛ مدلی قدرتمند که برای پر کردن شکاف عملکردی میان سری‌های میان‌رده و پرچم‌دار هوش مصنوعی طراحی شده است. این نسخه با اولویت دادن به قابلیت‌های عامل‌محور (agentic capabilities) — یعنی توانایی استفاده از ابزارها، مرور وب و اجرای برنامه‌های پیچیده — نشان‌دهنده تغییری به سمت جریان‌های کاری خودگردان (autonomous) در هوش مصنوعی است.

کاهش شکاف با سری Opus

چشمگیرترین جنبه Sonnet 5 این است که عملکرد آن تا چه حد به مدل بسیار بزرگ‌تر و گران‌تر Opus 4.8 نزدیک شده است. در بنچمارک‌های پیشگامانه، Sonnet 5 نشان داده است که مدل‌های «میان‌رده» اکنون می‌توانند وظایفی را انجام دهند که پیش از این مختص هوش مصنوعی در سطح مرزی (frontier-class) بود.

در بنچمارک استدلال چندرشته‌ای Humanity's Last Exam، مدل Sonnet 5 با استفاده از ابزارها به امتیاز ۵۷.۴٪ دست یافت که تقریباً با امتیاز ۵۷.۹٪ مدل Opus 4.8 برابری می‌کند. نکته خیره‌کننده این است که در بنچمارک وظایف دانش دنیای واقعی GDPval-AA v2، مدل Sonnet 5 در واقع از Opus 4.8 پیشی گرفت و امتیاز ۱,۶۱۸ را در مقابل امتیاز ۱,۶۱۵ مدل پرچم‌دار کسب کرد. این امر نشان می‌دهد که برای جریان‌های کاری خاص که دانش‌محور هستند، کارایی Sonnet 5 ممکن است بر مقیاس خام سری Opus برتری داشته باشد.

جهشی عظیم در عملکرد عامل‌محور

Anthropic به‌طور ویژه Sonnet 5 را به گونه‌ای مهندسی کرده است که تا به امروز «عامل‌محورترین» مدل خود باشد. این بدان معناست که مدل برای تعامل با محیط‌هایی مانند مرورگرهای وب و ترمینال‌ها جهت تکمیل اهداف چندمرحله‌ای بهینه‌سازی شده است. داده‌ها جهش قابل‌توجهی را نسبت به نسل قبلی آن، یعنی Sonnet 4.6، نشان می‌دهند:

  • SWE-bench Pro (کدنویسی عامل‌محور): مدل Sonnet 5 به ۶۳.۲٪ رسید که نسبت به ۵۸.۱٪ در Sonnet 4.6 افزایش یافته است (و پس از Opus 4.8 با امتیاز ۶۹.۲٪ قرار می‌گیرد).
  • Terminal-Bench 2.1: جهشی عظیم به ۸۰.۴٪ در مقایسه با ۶۷.۰٪ برای Sonnet 4.6.
  • OSWorld-Verified (استفاده از کامپیوتر): این مدل امتیاز ۸۱.۲٪ را کسب کرد و از امتیاز ۷۸.۵٪ ثبت‌شده توسط نسخه قبلی فراتر رفت.

مدیریت محدودیت‌های امنیت سایبری و ایمنی

این عرضه در زمان حساسی برای Anthropic انجام می‌شود؛ یعنی پس از اعمال محدودیت‌های دولت ایالات متحده بر مدل‌های Mythos 5 و Fable 5 آن‌ها به دلیل نگرانی‌های امنیت سایبری. برای جلوگیری از موانع مشابه، Anthropic اطمینان حاصل کرده است که Sonnet 5 بر روی وظایف تخصصی امنیت سایبری آموزش ندیده باشد.

اگرچه Sonnet 5 در ارزیابی‌های اکسپلویت (exploit evaluations)، نرخ کنترل جزئی کمی بالاتر (۱۳.۲٪) نسبت به Sonnet 4.6 نشان می‌دهد، اما همچنان در نوشتن اکسپلویت‌های نرم‌افزاری به‌طور قابل‌توجهی ضعیف‌تر از Opus 4.8 یا Mythos 5 عمل می‌کند. برای کاهش ریسک، Anthropic به‌طور پیش‌فرض محافظ‌های سایبری بی‌درنگ (real-time) را در کنار دفاع‌های بهبودیافته در برابر تزریق دستور (prompt injection) و کاهش رفتارهای «تملق‌آمیز» (sycophantic) — یعنی تمایل به موافقت صرف با خطاهای کاربر — پیاده‌سازی کرده است.

در دسترس بودن و «پارادوکس توکن»

مدل Claude Sonnet 5 هم‌اکنون از طریق Claude Platform و API (با شناسه claude-sonnet-5) در دسترس است که دارای پنجره بافت (context window) یک میلیون توکنی و تاریخ قطع دانش (training cutoff) ژانویه ۲۰۲۶ می‌باشد.

در حالی که Anthropic قیمت‌های تشویقی ارائه می‌دهد — ۲ دلار به ازای هر میلیون توکن ورودی و ۱۰ دلار به ازای هر میلیون توکن خروجی تا ۳۱ اوت ۲۰۲۶ — توسعه‌دهندگان باید مراقب «پارادوکس توکن» باشند. از آنجایی که این مدل عامل‌محورتر است و در استدلال‌های تکرارشونده بیشتر مشارکت می‌کند، ممکن است برای تکمیل یک وظیفه واحد در مقایسه با نسخه‌های قبلی، توکن‌های بسیار بیشتری مصرف کند که این امر پتانسیل دارد هزینه پایین‌تر هر توکن را خنثی کند.

نکات کلیدی

  • برابری عملکرد: Sonnet 5 در بنچمارک‌های خاص استدلال و دانش، با مدل پرچم‌دار Opus 4.8 برابری کرده یا حتی از آن پیشی می‌گیرد.
  • تمرکز بر قابلیت‌های عامل‌محور: این مدل بهبودهای عظیمی در کدنویسی (SWE-bench) و تعامل با ترمینال نشان می‌دهد که آن را برای استفاده خودگردان از ابزارها ایده‌آل می‌کند.
  • ایمنی استراتژیک: Anthropic محافظ‌های سایبری داخلی را در اولویت قرار داده است تا این مدل را از مدل‌های مرزی پرریسک و بحث‌برانگیز متمایز کند.