OpenAI запускає GPT-5.6 Sol, щоб кинути виклик Claude Mythos

OpenAI офіційно представила GPT-5.6 Sol — нове складне покоління моделей, розроблене для домінування в секторах агентного програмування та кібербезпеки. Хоча цей реліз знаменує собою значний стрибок у можливостях міркування, він з'явився на тлі зростаючої суперечки щодо обмежувальних протоколів доступу з боку уряду США.

Нова багаторівнева архітектура для продуктивності та масштабування

Відходячи від випуску окремих моделей, OpenAI запровадила багаторівневу схему найменувань, розроблену для різноманітних потреб підприємств. Ця архітектура використовує «Sol», «Terra» та «Luna» як постійні рівні продуктивності, що дозволяє розробникам масштабувати рішення відповідно до бюджету та складності.

На вершині ієрархії знаходиться Sol — флагманська модель. Нижче розташована Terra, яка за продуктивністю відповідає GPT-5.5 приблизно за половину вартості, та Luna — бюджетний рівень. Для інтенсивних робочих навантажень OpenAI запровадила режим «max» для глибокого міркування та режим «ultra», який використовує паралельно працюючих субагентів для виконання багатогранних складних завдань.

Встановлення нових стандартів у програмуванні та біології

Основна мета GPT-5.6 Sol — випередити клас Claude Mythos від Anthropic. У завданнях агентного програмування цифри підтверджують заяви OpenAI: у бенчмарку Terminal-Bench 2.1 Sol Ultra досягла приголомшливих 91,9%, перевершивши Claude Mythos 5 (88,0%) та Google Gemini 3.1 Pro Preview (70,7%).

Модель також демонструє значні прориви в спеціалізованих науках. У геномному бенчмарку GeneBench v1 модель Sol набрала 30%, що є суттєвим зростанням порівняно з 22%, досягнутими GPT-5.5, причому це відбулося за меншої витрати токенів. Така ефективність свідчить про те, що OpenAI зосереджується на «розумніших» обчисленнях, а не просто на «більших» обчислювальних потужностях.

Кібербезпека: Захисник проти Нападника

У сфері кібербезпеки Sol має на меті стати провідним інструментом захисту. В ExploitBench — тесті на здатність знаходити та експлуатувати вразливості в рушії JavaScript Google V8 — Sol відповідає продуктивності Anthropic Mythos Preview, але має критичну перевагу: вона використовує приблизно одну третину вихідних токенів.

OpenAI позиціонує Sol як захисника, а не автономного нападника. У тестах із залученням Chromium та Firefox модель успішно ідентифікувала баги та примітиви експлуатації, але не дійшла до створення автономного експлойту повного ланцюга. OpenAI стверджує, що Sol залишається нижче порогу «Cyber Critical» у межах своєї внутрішньої структури готовності (Preparedness Framework).

Суперечки щодо контрольованого урядом доступу

Впровадження GPT-5.6 Sol не обходиться без труднощів. Наразі доступ обмежений невеликою кількістю обраних партнерів через API та Codex — це обмеження, встановлене урядом США. Це сталося після попереднього рішення уряду вилучити Anthropic Fable 5 з ринку.

OpenAI висловила рішучий протест проти цих обмежень, назвавши поточний процес урядового доступу «нежиттєздатним». Компанія стверджує, що такі обмеження заважають розробникам, підприємствам і захисникам у кіберпросторі отримувати доступ саме до тих інструментів, які їм необхідні для захисту глобальної цифрової інфраструктури.

Основні висновки

  • Стратегія багаторівневих моделей: OpenAI запроваджує нову ієрархію — Sol (флагман), Terra (середній рівень) та Luna (бюджетний) — разом із режимом «Ultra» для паралельного виконання завдань субагентами.
  • Домінування в бенчмарках: GPT-5.6 Sol Ultra лідирує в галузі агентного програмування з результатом 91,9% у Terminal-Bench 2.1, значно перевершуючи Claude Mythos та Gemini.
  • Підхід «спочатку ефективність»: Sol досягає конкурентоспроможних результатів у кібербезпеці та геноміці, використовуючи значно менше токенів, що потенційно знижує фактичну вартість кожного завдання для розробників.