Mengapa Benchmark AI Standar Secara Sistematis Meremehkan Kemampuan Agen
Metode evaluasi AI saat ini gagal menangkap potensi sebenarnya dari model-model frontier, sering kali salah mengira kurangnya anggaran komputasi sebagai kurangnya kecerdasan. AI Security Institute (AISI) Inggris telah mengungkapkan bahwa performa agen AI bukanlah skor tetap, melainkan kurva penskalaan yang meningkat tajam seiring dengan bertambahnya test-time compute.
Kurva Komputasi-Kemampuan
Temuan utama dari penelitian AISI adalah bahwa tingkat keberhasilan agen AI terkait erat dengan "test-time compute"—jumlah daya pemrosesan dan token yang diizinkan untuk digunakan agen saat mengerjakan suatu tugas. Ketika peneliti menerapkan batasan anggaran tetap pada evaluasi, mereka sebenarnya sedang mengukur kemampuan minimum sebuah model, bukan potensi maksimumnya.
Fenomena ini terlihat di berbagai domain berisiko tinggi. Dalam tugas rekayasa perangkat lunak menggunakan benchmark seperti TerminalBench 2.0 dan SWE-Bench Pro, tingkat keberhasilan melonjak sekitar 25% ketika anggaran token ditingkatkan dari satu juta menjadi sepuluh juta. Demikian pula, tugas matematika dan akademik dalam "Humanity's Last Exam" mengalami kenaikan 22% ketika anggaran mencapai lima juta token.
Hukum Pangkat (Power Law) Waktu Tugas Manusia vs. AI
Studi tersebut menetapkan korelasi langsung antara waktu yang dibutuhkan seorang ahli manusia untuk suatu tugas dengan konsumsi token yang dibutuhkan oleh agen AI. Hubungan ini mengikuti hukum pangkat (power law): tugas yang membutuhkan waktu satu menit bagi manusia menghabiskan ribuan token bagi agen, sementara tugas satu jam menghabiskan jutaan token.
Hal ini menciptakan titik buta (blind spot) yang masif dalam pengujian saat ini. Sebagai contoh, tugas keamanan siber AISI "The Last Ones" membutuhkan sekitar 20 jam keahlian manusia. Tidak ada model yang diuji oleh institut tersebut yang dapat menyelesaikan tugas ini dengan kurang dari 30 juta token. Dengan menggunakan evaluasi standar beranggaran rendah, peneliti secara efektif memutus tugas-tugas yang paling kompleks dan kritis dari proses pengukuran.
Mempercepat Kemajuan dan Tiga Sumbu Peningkatan
AISI mencatat bahwa "time horizon" dari model-model frontier—kompleksitas tugas yang dapat mereka tangani—berkembang jauh lebih cepat daripada yang diperkirakan sebelumnya. Meskipun estimasi awal menunjukkan bahwa time horizon untuk tugas siber berlipat ganda setiap 4,7 bulan pada anggaran tetap 2,5 juta token, laju tersebut meningkat secara signifikan pada anggaran yang lebih tinggi. Pada 50 juta token, laju penggandaan meningkat menjadi setiap 40 hingga 50 hari.
Model-model terbaru (seperti seri GPT dan Claude yang diuji) menunjukkan peningkatan di tiga dimensi spesifik:
- Reach (Jangkauan): Kemampuan untuk menangani tugas-tugas yang semakin sulit.
- Reliability (Keandalan): Kemampuan untuk menyelesaikan tugas yang sama secara lebih konsisten.
- Efficiency (Efisiensi): Kemampuan untuk menyelesaikan tugas menggunakan lebih sedikit token.
Implikasi bagi Keamanan dan Penerapan AI
Penelitian ini menggeser paradigma evaluasi AI dari "skor tetap" menjadi "kurva yang sadar komputasi" (compute-aware curves). Bagi pengembang dan pendiri (founders), ini berarti kegunaan sebuah model bukan hanya fungsi dari pelatihannya, tetapi dari seberapa banyak inference compute yang dialokasikan selama penerapan.
Seiring dengan terus turunnya biaya per token, kemampuan yang sebelumnya tampak tidak layak secara ekonomi akan menjadi standar. Untuk keamanan dan proteksi AI, ini berarti risiko yang terkait dengan agen otonom—seperti serangan siber yang kompleks—mungkin sangat diremehkan jika regulator dan perusahaan hanya mengandalkan benchmark tradisional beranggaran rendah.
Poin-Poin Penting
- Benchmark menyesatkan: Anggaran token yang tetap hanya menangkap performa minimum sebuah model, secara sistematis meremehkan batas atas (ceiling) dari apa yang dapat dicapai oleh agen AI.
- Komputasi meningkatkan kemampuan: Tingkat keberhasilan dalam rekayasa perangkat lunak dan matematika melonjak signifikan seiring meningkatnya anggaran test-time compute.
- Laju "Penggandaan" semakin cepat: Pada anggaran komputasi yang lebih tinggi, laju model-model frontier dalam menguasai tugas-tugas kompleks jauh lebih curam daripada yang diperkirakan sebelumnya.
