Mengevaluasi AI Agentik di Era Benchmark LLM

Sebagian besar pengujian AI mengikuti pola yang sederhana. Anda memberikan perintah (prompt) kepada model. Anda membandingkan jawabannya dengan referensi. Anda memberi skor pada hasilnya.

Ini berhasil untuk ringkasan. Ini berhasil untuk klasifikasi. Namun, ini gagal ketika sebuah model harus bertindak dalam lingkungan yang terus berubah.

Makalah "The Age of LLM" memperkenalkan cara yang lebih baik. Ini adalah permainan 1v1 di atas sebuah grid. Dua model bersaing di bawah kabut perang (fog of war). Mereka tidak dapat melihat segalanya. Mereka harus melakukan pengintaian atau menebak untuk menemukan unit musuh. Mereka harus menggunakan diplomasi untuk mengajukan kesepakatan atau ultimatum.

Setiap langkah harus mengikuti skema JSON yang ketat. Jika sebuah langkah dianggap ilegal, sistem akan membuangnya.

Pengujian ini mengukur keterampilan spesifik:

  • Pelacakan status (state tracking): Apakah model mengingat apa yang dilihatnya dan apa yang hilang darinya?
  • Manajemen keyakinan (belief management): Apakah ia bertindak secara masuk akal dengan informasi yang tidak lengkap?
  • Validitas tindakan (action validity): Apakah ia mengikuti aturan lingkungan?
  • Strategi jangka panjang (long-horizon strategy): Dapatkah ia memilih urutan langkah yang mengarah pada suatu tujuan?

Sebuah model mungkin terdengar fasih tetapi gagal dalam praktiknya. Ia mungkin melupakan statusnya atau mengeluarkan panggilan alat (tool calls) yang tidak valid.

Hasilnya menunjukkan sebuah pola. Banyak model terjebak dalam jebakan sederhana di bawah ketidakpastian. Sebagian besar memilih langkah militer yang agresif. Diplomasi terjadi, tetapi kesepakatan jarang terselesaikan. Banyak kesalahan berasal dari pelacakan status yang buruk.

Benchmark standar melewatkan kegagalan-kegagalan ini. Sebuah model dapat menulis penjelasan yang hebat tetapi gagal melacak unit yang tersembunyi. Anda hanya akan melihat hal ini ketika lingkungan memaksa model untuk bertindak.

Pekerjaan AI saat ini sering berfokus pada penggunaan alat (tool use). Penggunaan alat memang diperlukan, tetapi itu tidak cukup. Seorang agen yang sesungguhnya harus mempertahankan konteks dan pulih ketika keadaan berubah.

Industri sedang bergeser dari kualitas obrolan ke hasil (outcomes). Sistem yang berguna diukur dari apakah mereka menyelesaikan pekerjaan, bukan seberapa banyak prosa halus yang mereka hasilkan.

Jika seorang agen tidak dapat mempertahankan status keyakinan (belief state), ia tidak strategis. Jika ia tidak dapat mengikuti skema, penggunaan alatnya akan rapuh.

Kemampuan agentic yang nyata membutuhkan dua hal:

  1. Kemampuan untuk merencanakan.
  2. Kemampuan untuk mengeksekusi di bawah ketidakpastian.

Dalam perangkat lunak, output yang buruk adalah bug. Dalam agen AI, output yang buruk sering kali merupakan kegagalan senyap (silent failure). Sebuah panggilan alat tidak melakukan apa-apa. Sebuah asumsi tersembunyi ternyata salah. Jika Anda hanya memberi skor pada jawaban akhir, Anda akan melewatkan masalahnya.

Kita harus menguji:

  • Observabilitas parsial (partial observability)
  • Status tersembunyi (hidden state)
  • Koordinasi jangka panjang (long-horizon coordination)
  • Validitas tindakan (action validity)
  • Pemulihan dari kesalahan (recovery from mistakes)

Evaluasi harus bergerak lebih dekat ke cara sistem ini bekerja di dunia nyata.

Source: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Optional learning community: https://t.me/GyaanSetuAi