Menilai Kualiti Output LLM dalam Produksi
Pada Mac 2023, GPT-4 mengenal pasti nombor perdana dengan ketepatan 97.6%. Menjelang Jun 2023, model yang sama merosot kepada ketepatan 2.4%. Tiada sesiapa yang mengubah kod. Tiada sesiapa yang mengubah prom. Model itu hanya berubah.
Inilah masalah teras dengan LLM dalam produksi. Anda tidak mengawal model tersebut. Ia adalah kebergantungan yang mengalami hanyutan (drift). Jika anda tidak mengukurnya, pengguna anda akan memberitahu anda bahawa ia rosak.
Anda tidak boleh bergantung kepada "vibes" atau sekadar "nampak okay bagi saya." Anda memerlukan isyarat yang boleh diulang.
Perisian tradisional adalah deterministik. Input yang sama menghasilkan output yang sama. LLM melanggar peraturan ini. Ia bersifat non-deterministik dan istilah "betul" selalunya kabur.
Untuk menguruskan perkara ini, anda memerlukan tiga lapisan penilaian:
- Penilaian luar talian (Offline evals): Jalankan set ujian tetap pada setiap perubahan untuk mengesan regresi.
- Semakan tanpa rujukan (Reference-free checks): Gunakan isyarat seperti pengesanan halusinasi apabila anda tidak mempunyai jawapan yang "betul".
- Pemantauan produksi (Production monitoring): Perhatikan trafik sebenar untuk mengesan hanyutan dan penurunan kualiti.
Asasnya ialah Set Data Emas (Golden Dataset). Jangan gunakan sampel rawak. Gunakan set kes sukar yang telah dikurasi. Gunakan input kosong, kes pinggiran (edge cases) yang pelik, dan prom adversarial. 80 contoh yang tepat lebih baik daripada 8,000 contoh rawak.
Apabila menggunakan LLM sebagai hakim, berwaspada dengan bias berikut:
- Bias kedudukan (Position bias): Hakim sering memihak kepada jawapan pertama yang mereka lihat. Atasi ini dengan menjalankan perbandingan dalam kedua-dua urutan.
- Bias verbositi (Verbosity bias): Hakim memberi ganjaran kepada jawapan yang lebih panjang walaupun ia kurang jelas.
- Bias penambahbaikan kendiri (Self-enhancement bias): Model lebih menyukai teks daripada keluarga model mereka sendiri. Gunakan keluarga model yang berbeza untuk menilai output.
Untuk pemantauan masa nyata, gunakan Triad RAG untuk menyemak:
- Kesetiaan (Faithfulness): Adakah jawapan tersebut berpegang kepada konteks?
- Relevansi jawapan (Answer relevance): Adakah ia menjawab soalan?
- Relevansi konteks (Context relevance): Adakah sistem mengambil dokumen yang betul?
Berhenti menganggap kualiti model sebagai sifat yang tetap. Anggap ia seperti kependaman (latency) atau kadar ralat. Ia berubah. Tugas anda adalah untuk menyedari apabila ia tidak lagi baik.
Mula secara kecil-kecilan. Tulis 20 contoh emas. Gunakan ia untuk mengawal (gate) deployment anda. Tambah heuristik produksi yang murah kemudian.
Pasukan yang boleh tidur nyenyak bukanlah pasukan yang mempunyai model paling pintar. Mereka adalah pasukan yang tahu dalam masa sejam jika model mereka menjadi lebih bodoh.
Sumber: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi
