Menilai AI Agentik dalam Era Penanda Aras LLM

Kebanyakan ujian AI mengikut corak yang mudah. Anda memberikan prom kepada model. Anda membandingkan jawapan dengan rujukan. Anda memberikan skor kepada keputusan tersebut.

Ini berkesan untuk ringkasan. Ia berkesan untuk klasifikasi. Ia gagal apabila model perlu bertindak dalam persekitaran yang sentiasa berubah.

Kertas kerja The Age of LLM memperkenalkan cara yang lebih baik. Ia merupakan permainan 1v1 di atas grid. Dua model bersaing di bawah kabus perang (fog of war). Mereka tidak dapat melihat segalanya. Mereka perlu melakukan tinjauan atau meneka untuk mencari unit musuh. Mereka mesti menggunakan diplomasi untuk mencadangkan tawaran atau ultimatum.

Setiap langkah mesti mengikut skema JSON yang ketat. Jika sesuatu langkah itu tidak sah, sistem akan mengetepikannya.

Ujian ini mengukur kemahiran khusus:

  • Penjejakan keadaan (State tracking): Adakah model mengingati apa yang dilihat dan apa yang hilang?
  • Pengurusan kepercayaan (Belief management): Adakah ia bertindak secara munasabah dengan maklumat yang tidak lengkap?
  • Kesahan tindakan (Action validity): Adakah ia mematuhi peraturan persekitaran?
  • Strategi jangka panjang (Long-horizon strategy): Bolehkah ia memilih urutan langkah yang membawa kepada matlamat?

Sesuatu model mungkin kedengaran fasih tetapi gagal dalam praktis. Ia mungkin melupakan keadaannya atau mengeluarkan panggilan alatan (tool calls) yang tidak sah.

Keputusan menunjukkan satu corak. Banyak model terperangkap dalam perangkap mudah di bawah ketidakpastian. Kebanyakan memilih langkah ketenteraan yang agresif. Diplomasi berlaku, tetapi perjanjian jarang sekali selesai. Banyak ralat berpunca daripada penjejakan keadaan yang lemah.

Penanda aras standard terlepas pandang kegagalan ini. Sesuatu model boleh menulis penjelasan yang hebat tetapi gagal menjejak unit yang tersembunyi. Anda hanya akan melihat perkara ini apabila persekitaran memaksa model tersebut untuk bertindak.

Kerja AI semasa sering tertumpu kepada penggunaan alatan. Penggunaan alatan adalah perlu, tetapi ia tidak mencukupi. Seorang ejen sebenar mesti mengekalkan konteks dan pulih apabila keadaan berubah.

Industri sedang beralih daripada kualiti sembang kepada hasil. Sistem yang berguna diukur berdasarkan sama ada ia menyelesaikan kerja, bukan berapa banyak prosa yang digilap yang dihasilkan.

Jika ejen tidak dapat mengekalkan keadaan kepercayaan (belief state), ia tidak strategik. Jika ia tidak dapat mengikut skema, penggunaan alatannya adalah rapuh.

Keupayaan agentik yang sebenar memerlukan dua perkara:

  1. Keupayaan untuk merancang.
  2. Keupayaan untuk melaksanakan di bawah ketidakpastian.

Dalam perisian, output yang buruk adalah pepijat (bug). Dalam ejen AI, output yang buruk sering kali merupakan kegagalan senyap. Panggilan alatan tidak melakukan apa-apa. Andaian tersembunyi adalah salah. Jika anda hanya memberi skor pada jawapan akhir, anda akan terlepas pandang masalah tersebut.

Kita mesti menguji untuk:

  • Pemerhatian separa (Partial observability)
  • Keadaan tersembunyi (Hidden state)
  • Penyelarasan jangka panjang (Long-horizon coordination)
  • Kesahan tindakan (Action validity)
  • Pemulihan daripada kesilapan

Penilaian mesti bergerak lebih dekat kepada cara sistem ini berfungsi di dunia nyata.

Sumber: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi