OpenAI مدل GPT-5.6 Sol را برای به چالش کشیدن Claude Mythos عرضه کرد
OpenAI رسماً از GPT-5.6 Sol رونمایی کرد؛ نسل جدید و پیشرفتهای از مدلها که برای تسلط بر بخشهای کدنویسی عاملمحور (agentic coding) و امنیت سایبری طراحی شده است. اگرچه این عرضه نشاندهنده جهشی بزرگ در قابلیتهای استدلال است، اما در میان جنجالهای فزاینده پیرامون پروتکلهای محدودکننده دسترسی دولت ایالات متحده منتشر میشود.
یک معماری لایهبندیشده جدید برای عملکرد و مقیاسپذیری
OpenAI با فاصله گرفتن از عرضه مدلهای تکبعدی، یک طرح نامگذاری لایهبندیشده را معرفی کرده است که برای نیازهای متنوع سازمانی طراحی شده است. این معماری از "Sol"، "Terra" و "Luna" به عنوان سطوح عملکردی دائمی استفاده میکند و به توسعهدهندگان اجازه میدهد تا بر اساس بودجه و پیچیدگی، مقیاس کار خود را تنظیم کنند.
در رأس این سلسلهمراتب، Sol قرار دارد که مدل پرچمدار (flagship) است. در رده بعدی Terra قرار میگیرد که عملکردی مشابه GPT-5.5 اما با تقریباً نصف هزینه دارد، و در نهایت Luna که سطح اقتصادی و مقرونبهصرفه است. برای حجم کاری بالا، OpenAI حالت "max" را برای استدلال عمیق و حالت "ultra" را معرفی کرده است که از زیر-عاملهای (sub-agents) موازی برای رسیدگی به وظایف چندوجهی و پیچیده استفاده میکند.
تعیین استانداردهای جدید در کدنویسی و زیستشناسی
هدف اصلی GPT-5.6 Sol پیشی گرفتن از کلاس Claude Mythos شرکت Anthropic است. در وظایف کدنویسی عاملمحور، اعداد از ادعاهای OpenAI حمایت میکنند: در بنچمارک Terminal-Bench 2.1، مدل Sol Ultra به امتیاز خیرهکننده ۹۱.۹٪ دست یافت که از Claude Mythos 5 (۸۸.۰٪) و Gemini 3.1 Pro Preview گوگل (۷۰.۷٪) فراتر رفته است.
این مدل همچنین پیشرفتهای چشمگیری در علوم تخصصی نشان میدهد. در بنچمارک ژنومیک GeneBench v1، مدل Sol امتیاز ۳۰٪ را کسب کرد که افزایش قابل توجهی نسبت به امتیاز ۲۲٪ بهدستآمده توسط GPT-5.5 است، آن هم در حالی که توکنهای کمتری مصرف کرده است. این کارایی نشان میدهد که OpenAI به جای تمرکز صرف بر محاسبات "بزرگتر"، بر محاسبات "هوشمندتر" تمرکز دارد.
امنیت سایبری: مدافع در برابر مهاجم
در حوزه امنیت سایبری، Sol با هدف تبدیل شدن به یک ابزار دفاعی برتر طراحی شده است. در ExploitBench — که توانایی یافتن و بهرهبرداری از آسیبپذیریها در موتور جاوااسکریپت Google V8 را آزمایش میکند — Sol با عملکرد Mythos Preview از Anthropic برابری میکند، اما با یک مزیت حیاتی: این مدل تقریباً از یکسوم توکنهای خروجی استفاده میکند.
OpenAI در حال جایگاهسازی Sol به عنوان یک مدافع است، نه یک مهاجم خودگردان. در آزمایشهای مربوط به Chromium و Firefox، این مدل با موفقیت باگها و اصول اولیه بهرهبرداری (exploitation primitives) را شناسایی کرد، اما از تولید یک اکسپلویت خودگردان و زنجیرهای کامل خودداری نمود. OpenAI تأکید دارد که Sol در چارچوب آمادگی (Preparedness Framework) داخلی خود، همچنان پایینتر از آستانه "Cyber Critical" قرار دارد.
جنجال بر سر دسترسی تحت کنترل دولت
عرضه GPT-5.6 Sol بدون چالش نیست. در حال حاضر، دسترسی از طریق API و Codex تنها به تعداد محدودی از شرکای منتخب محدود شده است که این محدودیت توسط دولت ایالات متحده تعیین شده است. این اقدام پس از تصمیم قبلی دولت مبنی بر حذف Fable 5 از شرکت Anthropic از بازار صورت میگیرد.
OpenAI مخالفت شدیدی با این محدودیتها نشان داده و فرآیند فعلی دسترسی دولتی را "ناپایدار" نامیده است. این شرکت استدلال میکند که چنین محدودیتهایی مانع از دسترسی توسعهدهندگان، شرکتها و مدافعان سایبری به ابزارهایی میشود که برای تأمین امنیت زیرساختهای دیجیتال جهانی به آنها نیاز دارند.
نکات کلیدی
- استراتژی مدل لایهبندیشده: OpenAI سلسلهمراتب جدیدی شامل Sol (پرچمدار)، Terra (سطح متوسط) و Luna (اقتصادی) را در کنار حالت "Ultra" برای اجرای موازی وظایف توسط زیر-عاملها معرفی میکند.
- تسلط بر بنچمارکها: مدل GPT-5.6 Sol Ultra با کسب امتیاز ۹۱.۹٪ در Terminal-Bench 2.1، در حوزه کدنویسی عاملمحور پیشتاز صنعت است و عملکردی بسیار بهتر از Claude Mythos و Gemini دارد.
- رویکرد اولویت با کارایی: Sol به نتایج رقابتی در امنیت سایبری و ژنومیک دست مییابد، در حالی که از توکنهای بسیار کمتری استفاده میکند که این امر پتانسیل کاهش هزینه مؤثر هر وظیفه را برای توسعهدهندگان دارد.
