Hanya Tiga Model AI Berjaya Melepasi Simulasi Syarikat Permulaan 500 Hari

Ejen AI semasa cemerlang dalam tugas-tugas diskret, tetapi mereka bergelut dengan pemikiran strategik jangka panjang yang kompleks yang diperlukan untuk mengendalikan sesebuah perniagaan. Satu penanda aras baharu yang dipanggil CEO-Bench mendedahkan bahawa walaupun kebanyakan model bahasa besar (LLM) muflis dalam tempoh 500 hari simulasi, segelintir model terpilih mula menunjukkan tanda-tanda "kecerdasan mengemudi" (steering intelligence).

Memperkenalkan CEO-Bench: Ujian Mutlak Kecerdasan Strategik

Penyelidik telah melangkaui ujian arahan (prompting) ringkas untuk membangunkan CEO-Bench, sebuah simulasi rapi yang direka untuk mengukur keupayaan ejen dalam mengemudi seluruh organisasi ke arah matlamat jangka panjang. Dalam penanda aras ini, seorang ejen AI mengambil alih kawalan "NovaMind," sebuah syarikat perisian langganan fiksyen, bermula dengan modal sebanyak $1 juta dan sifar pelanggan.

Persekitaran ini direka untuk meniru ketidaktentuan dunia sebenar. Ejen berinteraksi dengan Python API yang menampilkan 34 alatan dan pangkalan data 19 jadual, yang memerlukan mereka menulis kod tersuai dan pertanyaan SQL untuk membuat keputusan. Risikonya amat tinggi: jika baki tunai syarikat jatuh di bawah sifar pada bila-bila masa dalam tempoh 500 hari tersebut, simulasi akan berakhir dengan kebankrapan.

Kerumitan timbul daripada gelung maklum balas yang tertunda. Tidak seperti ejen berorientasikan tugas, seorang CEO mesti mengemudi garis masa R&D, kitaran pasaran, dan jangkaan pelanggan yang berubah-ubah. Keputusan yang dibuat pada hari ke-10—seperti perbelanjaan iklan atau peringkat harga—mungkin tidak memberikan hasil yang nyata dalam pertumbuhan pelanggan atau aliran tunai sehingga beberapa minggu kemudian.

Krisis Kebankrapan: Mengapa Kebanyakan Model Gagal

Keputusan ujian terhadap 14 model tersebut amat membimbangkan. Walaupun kebanyakan model boleh melaksanakan arahan asas, mereka kekurangan strategi jangka panjang yang koheren untuk kekal solven. Majoriti ejen gagal mengemudi ketidaktentuan pasaran dan muflis sebelum mencapai tanda 500 hari.

Dalam satu perbandingan yang mengejutkan, satu heuristik berasaskan peraturan yang ringkas—program bukan AI yang menggunakan harga tetap dan pelarasan kapasiti asas—mencapai $15.76 juta. Ini mengatasi hampir setiap LLM yang diuji, membuktikan bahawa "kecerdasan" tanpa hala tuju sering kali lebih rendah kualitinya berbanding rancangan perniagaan yang asas dan berdisiplin.

Tiga Elit: Claude dan GPT Mendahului

Hanya tiga model berjaya menamatkan larian mereka dengan modal melebihi $1 juta yang asal. Model-model ini menunjukkan keupayaan untuk mendedahkan maklumat tersembunyi dan meramalkan aliran tunai masa hadapan:

  • Claude Fable 5: Prestasi terbaik, mencapai jumlah yang mengejutkan sebanyak $47.15 juta dan menunjukkan konsistensi paling tinggi merentasi pelbagai larian.
  • Claude Opus 4.8: Mencapai $27.8 juta, menunjukkan kecanggihan tahap tinggi dengan membina simulasi dalaman sendiri untuk memodelkan kohort pelanggan.
  • GPT-5.5: Mencapai $21.3 juta, berjaya dengan menganalisis sejarah rundingan untuk mendedahkan keutamaan pelanggan yang tersembunyi.

Menariknya, model-model tersebut menggunakan jalan yang berbeza untuk mencapai kejayaan. Walaupun Opus 4.8 fokus pada pemerolehan pelanggan awal yang agresif, GPT-5.5 mengutamakan pengekalan pangkalan pelanggan yang stabil. Sebaliknya, model seperti Claude Opus 4.7 mengamalkan minda "survivalis", sekadar mengurangkan kos untuk mengelakkan kebankrapan tanpa pernah menjana keuntungan yang ketara.

Mengapa Ini Penting untuk Masa Depan AI

Jurang antara ejen berprestasi terbaik ($47.15 juta) dan had atas teori simulasi ($2.2 bilion) menunjukkan bahawa "kecerdasan mengemudi" AI masih di peringkat awal. Bagi pembangun dan pengasas, penanda aras ini menekankan bahawa sempadan baharu AI bukan sekadar penaakulan yang lebih baik, tetapi kesedaran temporal yang lebih baik—iaitu keupayaan untuk mengurus sumber dan jangkaan dalam tempoh yang panjang dan tidak menentu.

Rumusan Utama

  • Jurang Strategik: Kebanyakan model AI semasa kekurangan "kecerdasan mengemudi" untuk mengurus kitaran perniagaan jangka panjang, dengan majoriti gagal dalam ujian kelangsungan 500 hari.
  • Prestasi Terbaik: Hanya Claude Fable 5, Claude Opus 4.8, dan GPT-5.5 berjaya mengembangkan modal syarikat melebihi $1 juta permulaan.
  • Penanda Aras Heuristik: Algoritma berasaskan peraturan bukan AI yang ringkas mengatasi hampir semua LLM, menekankan bahawa konsistensi strategik adalah lebih penting daripada kuasa pemprosesan mentah.