Model AI Beroperasi Tanpa Henti Selama 19 Hari dalam Penanda Aras MirrorCode Baharu
Landskap kejuruteraan perisian autonomi sedang beralih daripada cebisan kod ringkas kepada maraton pengaturcaraan besar-besaran yang memakan masa berhari-hari. Penanda aras baharu daripada Epoch AI dan METR, yang dipanggil MirrorCode, mendedahkan bahawa model AI kini boleh menangani tugas pelaksanaan semula yang kompleks yang sebelum ini memerlukan kerja manusia selama berminggu-minggu.
Mencabar AI dengan MirrorCode
MirrorCode mewakili perubahan ketara daripada penanda aras kejuruteraan perisian tradisional yang biasanya mengehadkan kos inferens kepada hanya $1 hingga $10 bagi setiap tugas. Sebaliknya, penanda aras ini memerlukan model AI untuk melaksanakan semula program lengkap yang kompleks dari awal—merangkumi utiliti Unix dan kriptografi sehinggalah bioinformatik dan penserialan data—tanpa akses kepada kod sumber asal. Untuk memastikan kesetaraan fungsi yang sebenar, setiap penyelesaian yang dijana AI mesti melepasi ujian hujung-ke-hujung tersembunyi yang tidak pernah dilihat oleh model tersebut semasa fasa pembangunannya.
Skala tugas-tugas ini tidak pernah berlaku sebelum ini. Satu tugas khusus dalam penanda aras ini memerlukan model AI untuk bekerja secara berterusan selama 19 hari tanpa sebarang campur tangan manusia, yang mengakibatkan kos inferens sebanyak $2,600 untuk satu sesi larian.
Claude Opus 4.7 Mendahului Perlumbaan
Keputusan penanda aras tersebut menonjolkan hierarki yang jelas dalam model perintis semasa. Claude Opus 4.7 muncul sebagai peneraju dengan kadar penyelesaian 56 peratus, mengatasi GPT-5.5 secara ketara yang mencapai 44 peratus, dan Gemini 3.1 Pro Preview yang berada pada tahap 32 peratus.
Satu kejayaan yang menonjol melibatkan kit alatan bioinformatik gotree. Program ini terdiri daripada kira-kira 16,000 baris kod Go dan mempunyai lebih daripada 40 arahan yang berbeza. Walaupun jurutera manusia biasanya memerlukan antara 2 hingga 17 minggu untuk menyiapkan tugas sedemikian, Claude Opus 4.7 berjaya melaksanakannya semula dalam masa hanya 14 jam dengan kos $251. Malah dalam kes di mana model gagal mencapai pelaksanaan semula yang sempurna 100 peratus, mereka secara luar biasa melepasi lebih 90 peratus ujian fungsi.
Jurang Kompleksiti dan Risiko Hafalan
Di sebalik lonjakan ini, keputusan MirrorCode mendedahkan "siling kompleksiti" yang nyata. Walaupun semua model yang diuji mengendalikan program kecil seperti uuid atau parseqsv dengan boleh dipercayai, tiada model yang mempunyai keupayaan untuk menyelesaikan kategori tugas "besar" sepenuhnya buat masa ini. Sempadan pengaturcaraan AI masih bergelut apabila berhadapan dengan seni bina perisian yang paling besar dan saling berkaitan.
Epoch AI juga menangani kebimbangan kritikal dalam penilaian LLM: pencemaran data. Memandangkan penanda aras ini menggunakan program sumber terbuka, terdapat risiko bahawa model telah pun menghafal kod asal semasa fasa latihan mereka. Walaupun penemuan awal menunjukkan bahawa prestasi tidak semata-mata didorong oleh hafalan, penyelidik mengakui mereka tidak dapat menolak sepenuhnya sumbangan hafalan terhadap kadar penyelesaian semasa.
Mengapa Ini Penting untuk Industri AI
MirrorCode menandakan peralihan daripada "AI sebagai Copilot" kepada "AI sebagai Ejen Autonomi." Dengan membuktikan bahawa model boleh mengekalkan penaakulan selama tempoh 19 hari dan mengendalikan beribu-ribu baris kod, industri kini semakin hampir kepada ejen yang mampu menguruskan keseluruhan kitaran hayat perisian. Memandangkan kos inferens turun naik—dengan GPT-5.5 menelan kos tiga kali ganda lebih mahal daripada pendahulunya manakala Claude Opus 4.7 menjadi tiga kali ganda lebih cekap—daya maju ekonomi kejuruteraan autonomi akan menjadi sempadan besar yang seterusnya.
Ringkasan Utama
- Skala Penaakulan Baharu: MirrorCode mencabar had AI dengan membenarkan bajet inferens yang besar, dengan tugas tunggal menelan kos sehingga $2,600 dan berjalan selama 19 hari.
- Claude Mendahului Prestasi: Claude Opus 4.7 kini merupakan peneraju penanda aras dengan kadar penyelesaian 56%, menunjukkan keupayaan elit dalam melaksanakan semula pangkalan kod Go berskala besar.
- Halangan Kompleksiti Masih Wujud: Walaupun tugas skala kecil diselesaikan dengan boleh dipercayai, tiada model sedia ada yang mampu menyelesaikan tugas pengaturcaraan berskala besar yang paling kompleks sepenuhnya.
