OpenAI Meluncurkan GPT-5.6 Sol untuk Menantang Claude Mythos
OpenAI telah resmi memperkenalkan GPT-5.6 Sol, sebuah generasi model baru yang canggih yang dirancang untuk mendominasi sektor agentic coding dan keamanan siber. Meskipun peluncuran ini menandai lompatan signifikan dalam kemampuan penalaran, hal ini hadir di tengah kontroversi yang berkembang terkait protokol akses pemerintah AS yang restriktif.
Arsitektur Bertingkat Baru untuk Performa dan Skala
Beralih dari perilisan model tunggal, OpenAI telah memperkenalkan skema penamaan berlapis yang dirancang untuk berbagai kebutuhan perusahaan. Arsitektur ini menggunakan "Sol," "Terra," dan "Luna" sebagai tingkatan performa permanen, yang memungkinkan pengembang untuk melakukan penskalaan sesuai dengan anggaran dan kompleksitas.
Di puncak hierarki terdapat Sol, model unggulannya (flagship). Di bawahnya terdapat Terra, yang menyamai performa GPT-5.5 dengan biaya sekitar setengahnya, dan Luna, tingkatan yang ramah anggaran. Untuk beban kerja intensitas tinggi, OpenAI telah memperkenalkan mode "max" untuk penalaran mendalam dan mode "ultra", yang menggunakan sub-agen yang berjalan secara paralel untuk menangani tugas-tugas kompleks yang multifaset.
Menetapkan Tolok Ukur Baru dalam Coding dan Biologi
Tujuan utama dari GPT-5.6 Sol adalah untuk melampaui kelas Claude Mythos milik Anthropic. Dalam tugas agentic coding, angka-angka tersebut mendukung klaim OpenAI: pada tolok ukur Terminal-Bench 2.1, Sol Ultra mencapai angka yang mencengangkan sebesar 91,9%, melampaui Claude Mythos 5 (88,0%) dan Gemini 3.1 Pro Preview milik Google (70,7%).
Model ini juga menunjukkan terobosan signifikan dalam sains khusus. Pada tolok ukur genomik GeneBench v1, Sol mencetak skor 30%, peningkatan substansial dibandingkan 22% yang dicapai oleh GPT-5.5, yang secara khusus dicapai dengan konsumsi token yang lebih sedikit. Efisiensi ini menunjukkan bahwa OpenAI berfokus pada komputasi yang "lebih cerdas" daripada sekadar komputasi yang "lebih besar".
Keamanan Siber: Sang Pembela vs. Sang Penyerang
Dalam ranah keamanan siber, Sol bertujuan untuk menjadi alat pertahanan utama. Pada ExploitBench—yang menguji kemampuan untuk menemukan dan mengeksploitasi kerentanan dalam mesin JavaScript Google V8—Sol menyamai performa Mythos Preview milik Anthropic tetapi dengan keunggulan kritis: ia menggunakan sekitar sepertiga dari token output.
OpenAI memposisikan Sol sebagai pembela, bukan penyerang otonom. Dalam pengujian yang melibatkan Chromium dan Firefox, model ini berhasil mengidentifikasi bug dan primitif eksploitasi tetapi tidak sampai menghasilkan eksploitasi rantai penuh (full-chain exploit) yang otonom. OpenAI menegaskan bahwa Sol tetap berada di bawah ambang batas "Cyber Critical" dalam Preparedness Framework internal mereka.
Kontroversi Mengenai Akses yang Dikendalikan Pemerintah
Peluncuran GPT-5.6 Sol tidak berjalan tanpa gesekan. Saat ini, akses terbatas pada segelintir mitra terpilih melalui API dan Codex, sebuah pembatasan yang dimandatkan oleh pemerintah AS. Hal ini menyusul keputusan pemerintah sebelumnya untuk menarik Fable 5 milik Anthropic dari pasar.
OpenAI telah menyuarakan penolakan keras terhadap batasan-batasan ini, dengan menyebut proses akses pemerintah saat ini "tidak berkelanjutan" (unsustainable). Perusahaan tersebut berargumen bahwa pembatasan semacam itu menghalangi pengembang, perusahaan, dan pembela siber untuk mengakses alat yang sangat mereka butuhkan guna mengamankan infrastruktur digital global.
Poin-Poin Penting
- Strategi Model Bertingkat: OpenAI memperkenalkan hierarki baru—Sol (unggulan), Terra (menengah), dan Luna (anggaran)—bersamaan dengan mode "Ultra" untuk eksekusi tugas sub-agen secara paralel.
- Dominasi Tolok Ukur: GPT-5.6 Sol Ultra memimpin industri dalam agentic coding dengan 91,9% pada Terminal-Bench 2.1, secara signifikan mengungguli Claude Mythos dan Gemini.
- Pendekatan Mengutamakan Efisiensi: Sol mencapai hasil keamanan siber dan genomik yang kompetitif sambil menggunakan token yang jauh lebih sedikit, yang berpotensi menurunkan biaya efektif per tugas bagi para pengembang.
