Evaluasi Anda Juga Tidak Stabil: Berhenti Memercayai Tingkat Kelulusan yang Tidak Bisa Anda Reproduksi

Kebanyakan orang tahu bahwa agen AI bersifat non-deterministik. Anda mengirimkan prompt yang sama, tetapi mendapatkan output yang berbeda.

Kami menerima hal ini. Kami mulai menggunakan LLM sebagai penilai untuk memberikan nilai pada agen-agen ini.

Namun kami melakukan kesalahan besar. Kami berasumsi bahwa penilai kami bersifat deterministik. Padahal tidak.

Suite evaluasi Anda adalah sistem acak yang menilai sistem acak lainnya. Jika Anda tidak mengukur seberapa besar fluktuasi penilai Anda, Anda tidak memiliki gerbang kualitas. Anda hanya melakukan lemparan koin.

Saya melihat hal ini terjadi pada agen dukungan. Dasbor tetap berwarna hijau selama berminggu-minggu. Kemudian, keluhan pelanggan melonjak. Saya menjalankan evaluasi yang sama pada 200 respons lama. 14 di antaranya mengubah keputusannya. Agennya tidak berubah. Penilainya yang berubah pikiran.

Gerbang yang tidak stabil lebih buruk daripada tidak ada gerbang sama sekali. Hal itu memberi Anda kepercayaan diri palsu.

Ada tiga alasan mengapa evaluasi Anda gagal:

  • Model penilai: Setiap penilai LLM memiliki varians. Bahkan pada temperature 0, penyedia tidak menjamin hasil yang sama. Pembaruan model yang diam-diam dapat merusak baseline Anda dalam semalam.
  • Harness: Jika konteks atau output alat Anda berubah di antara setiap sesi, penilai akan melihat pertanyaan yang berbeda. Input mengalami pergeseran (drift).
  • Rubrik: Aturan yang samar seperti "apakah ini bagus?" menciptakan varians. Aturan yang ketat dan spesifik akan menguranginya.

Anda harus memperlakukan evaluasi yang tidak stabil seperti pengujian perangkat lunak yang tidak stabil. Jangan merilisnya. Karantina mereka. Ukur tingkat ketidakstabilannya (flake rate).

Berhenti melaporkan satu angka tingkat kelulusan saja. Mulailah melaporkan tingkat kesepakatan (agreement).

Jalankan setiap panggilan penilai beberapa kali. Jika penilai tidak dapat menyepakati dirinya sendiri, maka keputusannya bukanlah sebuah sinyal. Itu adalah UNSTABLE.

Hasil yang UNSTABLE harus menjadi hasil kelas utama dalam pipeline CI/CD Anda. Ia harus gagal secara eksplisit (fail loud).

Untuk memperbaiki evaluasi yang tidak stabil, Anda memerlukan dua hal:

  1. Lapisan penilaian (scoring layer): Ini menghitung stabilitas dan mengubah hasil menjadi PASS, FAIL, atau UNSTABLE.
  2. Lapisan pelacakan (tracing layer): Anda harus dapat melihat byte mentah, prompt yang tepat, dan output alat untuk setiap sesi.

Tanpa jejak (traces), Anda akan mengira model tersebut hanya acak. Anda akan menurunkan temperature dan mengira telah memperbaikinya. Anda tidak memperbaikinya. Anda hanya membuat bug tersebut menjadi lebih senyap.

Ikuti aturan ini untuk membangun kualitas yang nyata:

  • Laporkan tingkat kesepakatan (agreement), bukan hanya rata-rata.
  • Jadikan UNSTABLE sebagai status gagal dalam pipeline Anda.
  • Kunci (pin) versi model penilai Anda.
  • Baca jejak (traces) saat pemeriksaan gagal.

Dasbor hijau yang tidak dapat Anda reproduksi bukanlah sebuah sinyal. Itu hanyalah cerita yang Anda katakan pada diri sendiri.

Source: https://dev.to/saurav_bhattacharya/your-evals-are-flaky-too-stop-trusting-a-pass-rate-you-cant-reproduce-6pk

Optional learning community: https://t.me/GyaanSetuAi