OpenAI Melancarkan GPT-5.6 Sol untuk Mencabar Claude Mythos

OpenAI telah melancarkan GPT-5.6 Sol secara rasmi, sebuah generasi model baharu yang canggih yang direka untuk mendominasi sektor pengekodan ejen (agentic coding) dan keselamatan siber. Walaupun pelancaran ini menandakan lonjakan ketara dalam keupayaan penaakulan, ia hadir di tengah-tengah kontroversi yang sedang memuncak mengenai protokol akses kerajaan AS yang menyekat.

Seni Bina Berperingkat Baharu untuk Prestasi dan Skala

Beralih daripada pelancaran model tunggal, OpenAI telah memperkenalkan skema penamaan berlapis yang direka untuk pelbagai keperluan perusahaan. Seni bina ini menggunakan "Sol," "Terra," dan "Luna" sebagai peringkat prestasi kekal, membolehkan pembangun melakukan penskalaan mengikut bajet dan kerumitan.

Di puncak hierarki ialah Sol, model utama (flagship). Di bawahnya ialah Terra, yang menyamai prestasi GPT-5.5 pada kos kira-kira separuh harga, dan Luna, peringkat mesra bajet. Untuk beban kerja berintensiti tinggi, OpenAI telah memperkenalkan mod "max" untuk penaakulan mendalam dan mod "ultra", yang menggunakan sub-ejen yang berjalan secara selari untuk menangani tugas yang pelbagai aspek dan kompleks.

Menetapkan Penanda Aras Baharu dalam Pengekodan dan Biologi

Objektif utama GPT-5.6 Sol adalah untuk mengatasi kelas Claude Mythos milik Anthropic. Dalam tugas pengekodan ejen, angka-angka tersebut menyokong dakwaan OpenAI: pada penanda aras Terminal-Bench 2.1, Sol Ultra mencapai 91.9% yang menakjubkan, mengatasi Claude Mythos 5 (88.0%) dan Gemini 3.1 Pro Preview milik Google (70.7%).

Model ini juga menunjukkan kejayaan besar dalam sains khusus. Pada penanda aras genomik GeneBench v1, Sol mencatatkan skor 30%, peningkatan ketara berbanding 22% yang dicapai oleh GPT-5.5, dan yang paling penting, dengan penggunaan token yang lebih sedikit. Kecekapan ini menunjukkan bahawa OpenAI sedang memberi tumpuan kepada pengkomputeran yang "lebih pintar" dan bukannya sekadar pengkomputeran yang "lebih besar".

Keselamatan Siber: Sang Pertahanan lwn Sang Penyerang

Dalam bidang keselamatan siber, Sol bertujuan untuk menjadi alat pertahanan utama. Pada ExploitBench—yang menguji keupayaan untuk mencari dan mengeksploitasi kerentanan dalam enjin JavaScript Google V8—Sol menyamai prestasi Mythos Preview milik Anthropic tetapi dengan kelebihan kritikal: ia menggunakan kira-kira satu pertiga daripada token output.

OpenAI memposisikan Sol sebagai pertahanan dan bukannya penyerang autonomi. Dalam ujian yang melibatkan Chromium dan Firefox, model tersebut berjaya mengenal pasti pepijat (bugs) dan primitif eksploitasi tetapi tidak melampaui batas sehingga menghasilkan eksploitasi rantaian penuh (full-chain exploit) yang autonomi. OpenAI menegaskan bahawa Sol kekal di bawah ambang "Cyber Critical" dalam Kerangka Kesiapsiagaan (Preparedness Framework) dalamannya.

Kontroversi Mengenai Akses Terkawal Kerajaan

Pelancaran GPT-5.6 Sol tidak terlepas daripada geseran. Pada masa ini, akses adalah terhad kepada segelintir rakan kongsi terpilih melalui API dan Codex, satu sekatan yang diwajibkan oleh kerajaan AS. Ini menyusuli keputusan kerajaan sebelum ini untuk mengeluarkan Fable 5 milik Anthropic daripada pasaran.

OpenAI telah menyuarakan bantahan keras terhadap had ini, dengan melabelkan proses akses kerajaan semasa sebagai "tidak mampan" (unsustainable). Syarikat itu berhujah bahawa sekatan sedemikian menghalang pembangun, perusahaan, dan pertahanan siber daripada mengakses alat yang mereka perlukan untuk mengamankan infrastruktur digital global.

Ringkasan Utama

  • Strategi Model Berperingkat: OpenAI memperkenalkan hierarki baharu—Sol (utama), Terra (pertengahan), dan Luna (bajet)—bersama mod "Ultra" untuk pelaksanaan tugas sub-ejen secara selari.
  • Dominasi Penanda Aras: GPT-5.6 Sol Ultra menerajui industri dalam pengekodan ejen dengan 91.9% pada Terminal-Bench 2.1, mengatasi Claude Mythos dan Gemini secara ketara.
  • Pendekatan Mengutamakan Kecekapan: Sol mencapai keputusan keselamatan siber dan genomik yang kompetitif sambil menggunakan token yang jauh lebih sedikit, yang berpotensi mengurangkan kos berkesan bagi setiap tugas untuk pembangun.