OpenAI مدل GPT-5.6 Sol را برای به چالش کشیدن Claude Mythos عرضه کرد

OpenAI رسماً از GPT-5.6 Sol رونمایی کرد؛ نسل جدید و پیشرفته‌ای از مدل‌ها که برای تسلط بر بخش‌های کدنویسی عامل‌محور (agentic coding) و امنیت سایبری طراحی شده است. اگرچه این عرضه نشان‌دهنده جهشی بزرگ در قابلیت‌های استدلال است، اما در میان جنجال‌های فزاینده پیرامون پروتکل‌های محدودکننده دسترسی دولت ایالات متحده منتشر می‌شود.

یک معماری لایه‌بندی‌شده جدید برای عملکرد و مقیاس‌پذیری

OpenAI با فاصله گرفتن از عرضه مدل‌های تک‌بعدی، یک طرح نام‌گذاری لایه‌بندی‌شده را معرفی کرده است که برای نیازهای متنوع سازمانی طراحی شده است. این معماری از "Sol"، "Terra" و "Luna" به عنوان سطوح عملکردی دائمی استفاده می‌کند و به توسعه‌دهندگان اجازه می‌دهد تا بر اساس بودجه و پیچیدگی، مقیاس کار خود را تنظیم کنند.

در رأس این سلسله‌مراتب، Sol قرار دارد که مدل پرچم‌دار (flagship) است. در رده بعدی Terra قرار می‌گیرد که عملکردی مشابه GPT-5.5 اما با تقریباً نصف هزینه دارد، و در نهایت Luna که سطح اقتصادی و مقرون‌به‌صرفه است. برای حجم کاری بالا، OpenAI حالت "max" را برای استدلال عمیق و حالت "ultra" را معرفی کرده است که از زیر-عامل‌های (sub-agents) موازی برای رسیدگی به وظایف چندوجهی و پیچیده استفاده می‌کند.

تعیین استانداردهای جدید در کدنویسی و زیست‌شناسی

هدف اصلی GPT-5.6 Sol پیشی گرفتن از کلاس Claude Mythos شرکت Anthropic است. در وظایف کدنویسی عامل‌محور، اعداد از ادعاهای OpenAI حمایت می‌کنند: در بنچمارک Terminal-Bench 2.1، مدل Sol Ultra به امتیاز خیره‌کننده ۹۱.۹٪ دست یافت که از Claude Mythos 5 (۸۸.۰٪) و Gemini 3.1 Pro Preview گوگل (۷۰.۷٪) فراتر رفته است.

این مدل همچنین پیشرفت‌های چشمگیری در علوم تخصصی نشان می‌دهد. در بنچمارک ژنومیک GeneBench v1، مدل Sol امتیاز ۳۰٪ را کسب کرد که افزایش قابل توجهی نسبت به امتیاز ۲۲٪ به‌دست‌آمده توسط GPT-5.5 است، آن هم در حالی که توکن‌های کمتری مصرف کرده است. این کارایی نشان می‌دهد که OpenAI به جای تمرکز صرف بر محاسبات "بزرگ‌تر"، بر محاسبات "هوشمندتر" تمرکز دارد.

امنیت سایبری: مدافع در برابر مهاجم

در حوزه امنیت سایبری، Sol با هدف تبدیل شدن به یک ابزار دفاعی برتر طراحی شده است. در ExploitBench — که توانایی یافتن و بهره‌برداری از آسیب‌پذیری‌ها در موتور جاوااسکریپت Google V8 را آزمایش می‌کند — Sol با عملکرد Mythos Preview از Anthropic برابری می‌کند، اما با یک مزیت حیاتی: این مدل تقریباً از یک‌سوم توکن‌های خروجی استفاده می‌کند.

OpenAI در حال جایگاه‌سازی Sol به عنوان یک مدافع است، نه یک مهاجم خودگردان. در آزمایش‌های مربوط به Chromium و Firefox، این مدل با موفقیت باگ‌ها و اصول اولیه بهره‌برداری (exploitation primitives) را شناسایی کرد، اما از تولید یک اکسپلویت خودگردان و زنجیره‌ای کامل خودداری نمود. OpenAI تأکید دارد که Sol در چارچوب آمادگی (Preparedness Framework) داخلی خود، همچنان پایین‌تر از آستانه "Cyber Critical" قرار دارد.

جنجال بر سر دسترسی تحت کنترل دولت

عرضه GPT-5.6 Sol بدون چالش نیست. در حال حاضر، دسترسی از طریق API و Codex تنها به تعداد محدودی از شرکای منتخب محدود شده است که این محدودیت توسط دولت ایالات متحده تعیین شده است. این اقدام پس از تصمیم قبلی دولت مبنی بر حذف Fable 5 از شرکت Anthropic از بازار صورت می‌گیرد.

OpenAI مخالفت شدیدی با این محدودیت‌ها نشان داده و فرآیند فعلی دسترسی دولتی را "ناپایدار" نامیده است. این شرکت استدلال می‌کند که چنین محدودیت‌هایی مانع از دسترسی توسعه‌دهندگان، شرکت‌ها و مدافعان سایبری به ابزارهایی می‌شود که برای تأمین امنیت زیرساخت‌های دیجیتال جهانی به آن‌ها نیاز دارند.

نکات کلیدی

  • استراتژی مدل لایه‌بندی‌شده: OpenAI سلسله‌مراتب جدیدی شامل Sol (پرچم‌دار)، Terra (سطح متوسط) و Luna (اقتصادی) را در کنار حالت "Ultra" برای اجرای موازی وظایف توسط زیر-عامل‌ها معرفی می‌کند.
  • تسلط بر بنچمارک‌ها: مدل GPT-5.6 Sol Ultra با کسب امتیاز ۹۱.۹٪ در Terminal-Bench 2.1، در حوزه کدنویسی عامل‌محور پیشتاز صنعت است و عملکردی بسیار بهتر از Claude Mythos و Gemini دارد.
  • رویکرد اولویت با کارایی: Sol به نتایج رقابتی در امنیت سایبری و ژنومیک دست می‌یابد، در حالی که از توکن‌های بسیار کمتری استفاده می‌کند که این امر پتانسیل کاهش هزینه مؤثر هر وظیفه را برای توسعه‌دهندگان دارد.