Model AI Berjalan Tanpa Henti Selama 19 Hari dalam Benchmark MirrorCode Baru

Translated for your language. Read the original.

AI-assisted draft.

In this article

Model AI Berjalan Tanpa Henti Selama 19 Hari dalam Benchmark MirrorCode Baru

Lanskap rekayasa perangkat lunak otonom sedang bergeser dari potongan kode sederhana menjadi maraton pemrograman masif selama berhari-hari. Sebuah benchmark baru dari Epoch AI dan METR, yang disebut MirrorCode, mengungkapkan bahwa model AI kini dapat menangani tugas reimplementasi kompleks yang sebelumnya membutuhkan waktu berminggu-minggu kerja manusia.

Menantang AI dengan MirrorCode

MirrorCode mewakili perubahan signifikan dari benchmark rekayasa perangkat lunak tradisional yang biasanya membatasi biaya inferensi hanya sebesar $1 hingga $10 per tugas. Sebaliknya, benchmark ini mengharuskan model AI untuk mengimplementasikan ulang program lengkap yang kompleks dari awal—mulai dari utilitas Unix dan kriptografi hingga bioinformatika dan serialisasi data—tanpa akses ke kode sumber aslinya. Untuk memastikan kesetaraan fungsional yang nyata, setiap solusi yang dihasilkan AI harus lulus uji end-to-end tersembunyi yang tidak pernah dilihat oleh model selama fase pengembangannya.

Skala tugas-tugas ini belum pernah terjadi sebelumnya. Satu tugas spesifik dalam benchmark ini mengharuskan model AI untuk bekerja terus-menerus selama 19 hari tanpa intervensi manusia, yang menghasilkan biaya inferensi sebesar $2.600 untuk satu kali jalan.

Claude Opus 4.7 Memimpin Persaingan

Hasil benchmark menyoroti hierarki yang jelas pada model-model frontier saat ini. Claude Opus 4.7 muncul sebagai pemimpin dengan tingkat penyelesaian 56 persen, mengungguli GPT-5.5 secara signifikan yang mencapai 44 persen, dan Gemini 3.1 Pro Preview yang berada di angka 32 persen.

Salah satu keberhasilan yang menonjol melibatkan toolkit bioinformatika gotree. Program ini terdiri dari sekitar 16.000 baris kode Go dan memiliki lebih dari 40 perintah berbeda. Meskipun seorang insinyur manusia biasanya membutuhkan waktu antara 2 hingga 17 minggu untuk menyelesaikan tugas semacam itu, Claude Opus 4.7 berhasil mengimplementasikannya kembali hanya dalam 14 jam dengan biaya $251. Bahkan dalam kasus di mana model gagal mencapai reimplementasi yang sempurna 100 persen, mereka secara luar biasa lulus lebih dari 90 persen uji fungsional.

Kesenjangan Kompleksitas dan Risiko Memorisasi

Terlepas dari lompatan ini, hasil MirrorCode mengungkapkan adanya "langit-langit kompleksitas" yang nyata. Meskipun semua model yang diuji dapat menangani program kecil seperti uuid atau parseqsv dengan andal, saat ini belum ada model yang memiliki kemampuan untuk menyelesaikan kategori tugas "besar" secara penuh. Batas terdepan pengodean AI masih kesulitan saat menghadapi arsitektur perangkat lunak yang paling masif dan saling terhubung.

Epoch AI juga membahas kekhawatiran kritis dalam evaluasi LLM: kontaminasi data. Karena benchmark ini menggunakan program sumber terbuka (open-source), terdapat risiko bahwa model telah menghafal kode aslinya selama fase pelatihan mereka. Meskipun temuan awal menunjukkan bahwa performa tidak semata-mata didorong oleh memorisasi, para peneliti mengakui bahwa mereka tidak dapat sepenuhnya mengesampingkan kontribusinya terhadap tingkat penyelesaian saat ini.

Mengapa Ini Penting bagi Industri AI

MirrorCode menandakan transisi dari "AI sebagai Copilot" menjadi "AI sebagai Agen Otonom." Dengan membuktikan bahwa model dapat mempertahankan penalaran selama periode 19 hari dan menangani ribuan baris kode, industri ini semakin dekat dengan agen yang mampu mengelola seluruh siklus hidup perangkat lunak. Seiring fluktuasi biaya inferensi—dengan GPT-5.5 yang biayanya tiga kali lipat lebih mahal dari pendahulunya sementara Claude Opus 4.7 menjadi tiga kali lebih efisien—kelayakan ekonomi dari rekayasa otonom akan menjadi batas terdepan besar berikutnya.

Poin-Poin Penting

Skala Penalaran Baru: MirrorCode mendorong batas AI dengan mengizinkan anggaran inferensi yang masif, dengan tugas tunggal yang memakan biaya hingga $2.600 dan berjalan selama 19 hari.
Claude Memimpin Performa: Claude Opus 4.7 saat ini merupakan pemimpin benchmark dengan tingkat penyelesaian 56%, menunjukkan kemampuan elit dalam mengimplementasikan kembali basis kode Go skala besar.
Hambatan Kompleksitas Masih Ada: Meskipun tugas skala kecil dapat diselesaikan dengan andal, belum ada model yang ada saat ini yang dapat sepenuhnya memecahkan tugas pemrograman skala besar yang paling kompleks.

Model AI Berjalan Tanpa Henti Selama 19 Hari dalam Benchmark MirrorCode Baru

Model AI Berjalan Tanpa Henti Selama 19 Hari dalam Benchmark MirrorCode Baru

Menantang AI dengan MirrorCode

Claude Opus 4.7 Memimpin Persaingan

Kesenjangan Kompleksitas dan Risiko Memorisasi

Mengapa Ini Penting bagi Industri AI

Poin-Poin Penting

Continue reading

Benchmark AA Briefcase Baru Mengungkapkan Kesulitan AI dalam Pekerjaan Berbasis Pengetahuan yang Sesungguhnya

CEO Snowflake: GLM 5.2 Menyaingi Claude Opus 4.7 dengan Biaya Jauh Lebih Murah

Uber Menghabiskan Seluruh Anggaran Pengodean AI-nya dalam 4 Bulan

Lindy Ganti Claude dengan DeepSeek untuk Menghemat Jutaan dalam Biaya AI

Hanya Tiga Model AI yang Bertahan dalam Simulasi Startup 500 Hari