Papan Peringkat Agen Menyesatkan Saat Terjadi Pergeseran Distribusi

Papan peringkat agen AI saat ini bermasalah.

Sebagian besar papan peringkat mengambil sebuah agen dan mengubahnya menjadi satu skor tunggal. Mereka kemudian mengurutkan agen dari yang tertinggi ke terendah. Ini terlihat bagus dalam laporan, tetapi gagal di dunia nyata.

Sebuah makalah baru dari IBM berjudul Beyond Static Leaderboards menjelaskan alasannya.

Masalahnya: Skor Agregat

Skor rata-rata tunggal adalah sinyal yang lemah untuk penerapan (deployment). Sebuah evaluasi seharusnya memberi tahu Anda agen mana yang harus diluncurkan. Jika agen teratas pada sebuah benchmark bukanlah agen teratas di lingkungan produksi Anda, maka papan peringkat tersebut telah membohongi Anda.

IBM menemukan bahwa peringkat berdasarkan skor agregat tidak dapat diterapkan ketika kondisi berubah. Ini disebut distribution shift (pergeseran distribusi).

Analogi: Pelari Cepat di Tengah Angin

  • Bayangkan memeringkat pelari cepat di dalam ruangan pada lintasan tanpa angin.
  • Pelari A menang. Pelari B juara kedua.
  • Sekarang pindahkan perlombaan ke luar ruangan dengan angin kencang.
  • Peringkatnya berubah. Pelari B menang. Pelari A turun ke posisi ketiga.

Jam di dalam ruangan tidak salah. Ia mengukur kecepatan dalam satu pengaturan spesifik. Ia hanya tidak dapat memprediksi bagaimana para pelari akan beraksi di tengah angin.

Solusinya: Validitas Prediktif

IBM mengusulkan penggunaan validitas prediktif alih-alih hanya skor mentah.

Validitas prediktif mengukur korelasi peringkat antara sebuah benchmark dan hasil dunia nyata. Ia mengajukan pertanyaan sederhana: apakah urutan agen tetap sama ketika lingkungan berubah?

  • Validitas prediktif tinggi: Papan peringkat memprediksi pemenang di dunia nyata.
  • Validitas prediktif rendah: Papan peringkat menunjukkan agen yang salah.

Konsep Kunci:

  • In-sample: Tugas-tugas spesifik yang digunakan oleh benchmark.
  • Out-of-distribution: Tugas baru, alat baru, atau data berbeda yang ditemui selama penerapan.
  • Rank instability: Ketika perubahan kecil dalam tugas mengacak ulang seluruh papan peringkat.

Berhentilah memperlakukan benchmark hanya sebagai papan skor. Perlakukan mereka sebagai alat pengukuran. Jika sebuah alat tidak dapat memprediksi hasil yang Anda pedulikan, alat tersebut tidak berguna untuk produksi.

Sumber: https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

Komunitas belajar opsional: https://t.me/GyaanSetuAi