Evaluasi Agen AI Berakhir Terlalu Cepat
Kebanyakan orang mengira evaluasi agen AI berakhir saat peluncuran. Mereka melihat skor tinggi pada sebuah benchmark dan berasumsi bahwa agen tersebut sudah siap. Ini adalah sebuah kesalahan.
Skor tinggi sering kali hanya berarti agen tersebut berhasil melewati beberapa kasus spesifik. Itu tidak berarti agen tersebut siap untuk dunia nyata.
Benchmark saat ini memiliki celah yang sangat besar. Sebuah tinjauan terhadap 15 benchmark utama menunjukkan:
- Tidak ada satu pun benchmark yang menyertakan aspek keselamatan atau keamanan dalam skor mereka.
- Tidak ada satu pun benchmark yang menyertakan efisiensi biaya.
- 13 dari 15 benchmark hanya mengandalkan keberhasilan atau kegagalan biner.
- Tidak ada yang mencapai 50% kesiapan deployment.
Menguji hanya output akhirnya saja sangatlah berbahaya. Jika sebuah agen memberikan jawaban yang benar, itu terlihat seperti sebuah keberhasilan. Namun, jalur yang diambilnya mungkin saja cacat.
Sebuah agen mungkin:
- Menggunakan alat yang salah untuk mendapatkan jawaban yang benar.
- Melewati langkah-langkah verifikasi sepenuhnya.
- Berhalusinasi mengenai fakta tetapi sampai pada kesimpulan yang benar.
- Menghabiskan anggaran Anda dengan percobaan ulang yang terus-menerus.
Jika agen layanan pelanggan memproses pengembalian dana untuk akun yang salah, outputnya terlihat baik-baik saja. Namun, agen tersebut telah gagal.
Anda harus menilai trajektorinya, bukan hanya jawabannya.
Evaluasi yang sebenarnya harus mencakup dimensi-dimensi berikut:
- Ketepatan alat dan parameter.
- Grounding dan akurasi.
- Biaya dan latensi.
- Kebijakan dan keselamatan.
- Pemulihan dari kesalahan.
Berhentilah memperlakukan evaluasi sebagai laporan peluncuran. Perlakukanlah sebagai sebuah loop yang berkelanjutan.
Cara kerja yang lebih baik:
- Membangun benchmark publik untuk kapabilitas.
- Menjalankan pengujian offline sebelum rilis.
- Memantau trace produksi secara real-time.
- Menangkap tool calls, argumen, dan keputusan perantara.
- Menggunakan trace produksi yang gagal untuk meningkatkan dataset offline Anda.
Evaluasi adalah masalah observabilitas. Sebuah agen dianggap berhasil hanya jika perilakunya tetap konsisten dengan tujuan bisnis, alat, dan niat pengguna Anda. Hal-hal ini berubah setiap hari.
Jangan hanya menyimpan trace. Evaluasilah. Penyimpanan trace tanpa evaluasi hanyalah masalah pencarian. Evaluasi offline tanpa data produksi hanyalah sebuah sandiwara.
Langkah terakhir dari evaluasi seharusnya bukan sebuah skor. Langkah terakhir seharusnya adalah trace berikutnya.
Sumber: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi
