Mengapa Penanda Aras AI Standard Secara Sistematik Meremehkan Keupayaan Ejen
Kaedah penilaian AI semasa gagal menangkap potensi sebenar model perintis (frontier models), sering kali tersilap menganggap kekurangan bajet pengkomputeran sebagai kekurangan kecerdasan. Institut Keselamatan AI (AISI) UK telah mendedahkan bahawa prestasi ejen AI bukanlah skor tetap, sebaliknya merupakan lengkung penskalaan yang meningkat tajam dengan peningkatan pengkomputeran masa-ujian (test-time compute).
Lengkung Pengkomputeran-Keupayaan
Penemuan utama daripada penyelidikan AISI adalah kadar kejayaan ejen AI berkait rapat dengan "pengkomputeran masa-ujian" (test-time compute) — jumlah kuasa pemprosesan dan token yang dibenarkan untuk digunakan oleh ejen semasa melaksanakan sesuatu tugasan. Apabila penyelidik mengenakan had bajet tetap pada penilaian, mereka sebenarnya mengukur keupayaan minimum sesuatu model dan bukannya potensi maksimumnya.
Fenomena ini dapat dilihat dalam pelbagai domain berisiko tinggi. Dalam tugasan kejuruteraan perisian menggunakan penanda aras seperti TerminalBench 2.0 dan SWE-Bench Pro, kadar kejayaan melonjak sebanyak kira-kira 25% apabila bajet token ditingkatkan daripada satu juta kepada sepuluh juta. Begitu juga, tugasan matematik dan akademik dalam "Humanity's Last Exam" menunjukkan peningkatan sebanyak 22% apabila bajet mencapai lima juta token.
Hukum Kuasa Masa Tugasan Manusia lwn. AI
Kajian tersebut menetapkan korelasi langsung antara masa yang diperlukan oleh pakar manusia untuk sesuatu tugasan dengan penggunaan token yang diperlukan oleh ejen AI. Hubungan ini mengikut hukum kuasa (power law): tugasan yang mengambil masa satu minit bagi manusia menelan kos ribuan token bagi ejen, manakala tugasan selama satu jam menelan kos jutaan token.
Ini mewujudkan titik buta yang besar dalam ujian semasa. Sebagai contoh, tugasan keselamatan siber AISI "The Last Ones" memerlukan kira-kira 20 jam kepakaran manusia. Tiada model yang diuji oleh institut tersebut dapat menyelesaikan tugasan ini dengan kurang daripada 30 juta token. Dengan menggunakan penilaian bajet rendah yang standard, penyelidik secara berkesan telah mengecualikan tugasan yang paling kompleks dan kritikal daripada proses pengukuran.
Mempercepat Kemajuan dan Tiga Paksi Penambahbaikan
AISI menyatakan bahawa "horizon masa" (time horizon) model perintis — iaitu tahap kerumitan tugasan yang boleh dikendalikan — berkembang jauh lebih pantas daripada yang disangkakan sebelum ini. Walaupun anggaran awal mencadangkan horizon masa untuk tugasan siber berganda setiap 4.7 bulan pada bajet tetap 2.5 juta token, kadar tersebut meningkat secara signifikan pada bajet yang lebih tinggi. Pada 50 juta token, kadar penggandaan meningkat kepada setiap 40 hingga 50 hari.
Model yang lebih baharu (seperti siri GPT dan Claude yang diuji) menunjukkan penambahbaikan merentasi tiga dimensi khusus:
- Reach (Capaian): Keupayaan untuk menangani tugasan yang semakin sukar.
- Reliability (Kebolehpercayaan): Keupayaan untuk menyelesaikan tugasan yang sama dengan lebih konsisten.
- Efficiency (Kecekapan): Keupayaan untuk menyelesaikan tugasan menggunakan token yang lebih sedikit.
Implikasi terhadap Keselamatan dan Pelaksanaan AI
Penyelidikan ini mengubah paradigma penilaian AI daripada "skor tetap" kepada "lengkung peka-pengkomputeran" (compute-aware curves). Bagi pembangun dan pengasas, ini bermakna kegunaan sesuatu model bukan sekadar fungsi latihannya, tetapi bergantung kepada berapa banyak pengkomputeran inferens yang diperuntukkan semasa pelaksanaan.
Memandangkan kos bagi setiap token terus menurun, keupayaan yang sebelum ini kelihatan tidak munasabah dari segi ekonomi akan menjadi standard. Bagi keselamatan dan sekuriti AI, ini bermakna risiko yang berkaitan dengan ejen autonomi — seperti serangan siber yang kompleks — mungkin terkurang anggap secara signifikan jika pengawal selia dan syarikat bergantung kepada penanda aras tradisional yang berbajet rendah.
Ringkasan Utama
- Penanda aras mengelirukan: Bajet token yang tetap hanya menangkap prestasi minimum sesuatu model, secara sistematik meremehkan had siling apa yang boleh dicapai oleh ejen AI.
- Pengkomputeran meningkatkan keupayaan: Kadar kejayaan dalam kejuruteraan perisian dan matematik melonjak secara signifikan apabila bajet pengkomputeran masa-ujian meningkat.
- Kadar "Penggandaan" semakin memecut: Pada bajet pengkomputeran yang lebih tinggi, kadar model perintis menguasai tugasan kompleks adalah jauh lebih curam daripada anggaran sebelum ini.
