Mengapa Penanda Aras AI Standard Meremehkan Keupayaan Ejen Secara Sistematik

Translated for your language. Read the original.

AI-assisted draft.

Mengapa Penanda Aras AI Standard Meremehkan Keupayaan Ejen Secara Sistematik

In this article

Mengapa Penanda Aras AI Standard Secara Sistematik Meremehkan Keupayaan Ejen

Kaedah penilaian AI semasa gagal menangkap potensi sebenar model perintis (frontier models), sering kali tersilap menganggap kekurangan bajet pengkomputeran sebagai kekurangan kecerdasan. Institut Keselamatan AI (AISI) UK telah mendedahkan bahawa prestasi ejen AI bukanlah skor tetap, sebaliknya merupakan lengkung penskalaan yang meningkat tajam dengan peningkatan pengkomputeran masa-ujian (test-time compute).

Lengkung Pengkomputeran-Keupayaan

Penemuan utama daripada penyelidikan AISI adalah kadar kejayaan ejen AI berkait rapat dengan "pengkomputeran masa-ujian" (test-time compute) — jumlah kuasa pemprosesan dan token yang dibenarkan untuk digunakan oleh ejen semasa melaksanakan sesuatu tugasan. Apabila penyelidik mengenakan had bajet tetap pada penilaian, mereka sebenarnya mengukur keupayaan minimum sesuatu model dan bukannya potensi maksimumnya.

Fenomena ini dapat dilihat dalam pelbagai domain berisiko tinggi. Dalam tugasan kejuruteraan perisian menggunakan penanda aras seperti TerminalBench 2.0 dan SWE-Bench Pro, kadar kejayaan melonjak sebanyak kira-kira 25% apabila bajet token ditingkatkan daripada satu juta kepada sepuluh juta. Begitu juga, tugasan matematik dan akademik dalam "Humanity's Last Exam" menunjukkan peningkatan sebanyak 22% apabila bajet mencapai lima juta token.

Hukum Kuasa Masa Tugasan Manusia lwn. AI

Kajian tersebut menetapkan korelasi langsung antara masa yang diperlukan oleh pakar manusia untuk sesuatu tugasan dengan penggunaan token yang diperlukan oleh ejen AI. Hubungan ini mengikut hukum kuasa (power law): tugasan yang mengambil masa satu minit bagi manusia menelan kos ribuan token bagi ejen, manakala tugasan selama satu jam menelan kos jutaan token.

Ini mewujudkan titik buta yang besar dalam ujian semasa. Sebagai contoh, tugasan keselamatan siber AISI "The Last Ones" memerlukan kira-kira 20 jam kepakaran manusia. Tiada model yang diuji oleh institut tersebut dapat menyelesaikan tugasan ini dengan kurang daripada 30 juta token. Dengan menggunakan penilaian bajet rendah yang standard, penyelidik secara berkesan telah mengecualikan tugasan yang paling kompleks dan kritikal daripada proses pengukuran.

Mempercepat Kemajuan dan Tiga Paksi Penambahbaikan

AISI menyatakan bahawa "horizon masa" (time horizon) model perintis — iaitu tahap kerumitan tugasan yang boleh dikendalikan — berkembang jauh lebih pantas daripada yang disangkakan sebelum ini. Walaupun anggaran awal mencadangkan horizon masa untuk tugasan siber berganda setiap 4.7 bulan pada bajet tetap 2.5 juta token, kadar tersebut meningkat secara signifikan pada bajet yang lebih tinggi. Pada 50 juta token, kadar penggandaan meningkat kepada setiap 40 hingga 50 hari.

Model yang lebih baharu (seperti siri GPT dan Claude yang diuji) menunjukkan penambahbaikan merentasi tiga dimensi khusus:

Reach (Capaian): Keupayaan untuk menangani tugasan yang semakin sukar.
Reliability (Kebolehpercayaan): Keupayaan untuk menyelesaikan tugasan yang sama dengan lebih konsisten.
Efficiency (Kecekapan): Keupayaan untuk menyelesaikan tugasan menggunakan token yang lebih sedikit.

Implikasi terhadap Keselamatan dan Pelaksanaan AI

Penyelidikan ini mengubah paradigma penilaian AI daripada "skor tetap" kepada "lengkung peka-pengkomputeran" (compute-aware curves). Bagi pembangun dan pengasas, ini bermakna kegunaan sesuatu model bukan sekadar fungsi latihannya, tetapi bergantung kepada berapa banyak pengkomputeran inferens yang diperuntukkan semasa pelaksanaan.

Memandangkan kos bagi setiap token terus menurun, keupayaan yang sebelum ini kelihatan tidak munasabah dari segi ekonomi akan menjadi standard. Bagi keselamatan dan sekuriti AI, ini bermakna risiko yang berkaitan dengan ejen autonomi — seperti serangan siber yang kompleks — mungkin terkurang anggap secara signifikan jika pengawal selia dan syarikat bergantung kepada penanda aras tradisional yang berbajet rendah.

Ringkasan Utama

Penanda aras mengelirukan: Bajet token yang tetap hanya menangkap prestasi minimum sesuatu model, secara sistematik meremehkan had siling apa yang boleh dicapai oleh ejen AI.
Pengkomputeran meningkatkan keupayaan: Kadar kejayaan dalam kejuruteraan perisian dan matematik melonjak secara signifikan apabila bajet pengkomputeran masa-ujian meningkat.
Kadar "Penggandaan" semakin memecut: Pada bajet pengkomputeran yang lebih tinggi, kadar model perintis menguasai tugasan kompleks adalah jauh lebih curam daripada anggaran sebelum ini.

Mengapa Penanda Aras AI Standard Meremehkan Keupayaan Ejen Secara Sistematik

Mengapa Penanda Aras AI Standard Secara Sistematik Meremehkan Keupayaan Ejen

Lengkung Pengkomputeran-Keupayaan

Hukum Kuasa Masa Tugasan Manusia lwn. AI

Mempercepat Kemajuan dan Tiga Paksi Penambahbaikan

Implikasi terhadap Keselamatan dan Pelaksanaan AI

Ringkasan Utama

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Penilaian Ejen AI Berakhir Terlalu Awal

Kebangkitan AI Agentik: Mengapa Pasukan Teknologi Menerajui Sempadan Automasi

Mengapa Model AI Terdepan Gagal dalam Ujian Triage Kewangan