Mengevaluasi Kualitas Output LLM di Produksi

Pada Maret 2023, GPT-4 mengidentifikasi bilangan prima dengan akurasi 97,6%. Pada Juni 2023, model yang sama turun ke akurasi 2,4%. Tidak ada yang mengubah kode. Tidak ada yang mengubah prompt. Model tersebut sekadar bergeser.

Inilah masalah inti dengan LLM di produksi. Anda tidak mengontrol model tersebut. Ia adalah dependensi yang mengalami drift. Jika Anda tidak mengukurnya, pengguna Anda yang akan memberi tahu bahwa sistem tersebut rusak.

Anda tidak bisa hanya mengandalkan "vibes" atau sekadar "kelihatannya sudah bagus". Anda membutuhkan sinyal yang dapat diulang.

Perangkat lunak tradisional bersifat deterministik. Input yang sama menghasilkan output yang sama. LLM melanggar aturan ini. Mereka bersifat non-deterministik dan definisi "benar" sering kali bersifat samar.

Untuk mengelola hal ini, Anda memerlukan tiga lapisan evaluasi:

  • Evaluasi offline: Jalankan set pengujian tetap pada setiap perubahan untuk menangkap regresi.
  • Pemeriksaan tanpa referensi: Gunakan sinyal seperti deteksi halusinasi saat Anda tidak memiliki jawaban "benar".
  • Pemantauan produksi: Pantau lalu lintas nyata untuk melihat drift dan penurunan kualitas.

Fondasi utamanya adalah Golden Dataset. Jangan gunakan sampel acak. Gunakan kumpulan kasus sulit yang telah dikurasi. Gunakan input kosong, kasus tepi (edge cases) yang aneh, dan prompt adversarial. 80 contoh yang tajam lebih baik daripada 8.000 contoh acak.

Saat menggunakan LLM sebagai hakim (judge), waspadai bias berikut:

  • Bias posisi (Position bias): Hakim sering kali lebih menyukai jawaban pertama yang mereka lihat. Atasi ini dengan menjalankan perbandingan dalam kedua urutan.
  • Bias verbositas (Verbosity bias): Hakim memberi penghargaan pada jawaban yang lebih panjang meskipun kurang jelas.
  • Bias peningkatan diri (Self-enhancement bias): Model lebih menyukai teks dari keluarga model mereka sendiri. Gunakan keluarga model yang berbeda untuk menilai output.

Untuk pemantauan waktu nyata (real-time), gunakan RAG Triad untuk memeriksa:

  • Faithfulness: Apakah jawabannya tetap berpegang pada konteks?
  • Relevansi jawaban: Apakah jawaban tersebut menjawab pertanyaan?
  • Relevansi konteks: Apakah sistem mengambil dokumen yang tepat?

Berhentilah menganggap kualitas model sebagai properti yang tetap. Perlakukan ia seperti latensi atau tingkat kesalahan (error rates). Kualitasnya berubah-ubah. Tugas Anda adalah menyadari kapan kualitasnya mulai menurun.

Mulailah dari hal kecil. Tulis 20 contoh golden. Gunakan contoh tersebut sebagai gerbang (gate) untuk deployment Anda. Tambahkan heuristik produksi yang murah kemudian.

Tim yang bisa tidur nyenyak bukanlah tim dengan model terpintar. Mereka adalah tim yang tahu dalam waktu satu jam jika model mereka menjadi lebih bodoh.

Source: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an

Optional learning community: https://t.me/GyaanSetuAi