Cara Saya Melakukan Ujian A/B pada Prompt LLM Tanpa Menipu Diri Sendiri
Saya pernah membina pembantu sokongan dan menyangka saya telah menemui formula yang berjaya. Saya menjalankan tiga puluh kes ujian, prompt baharu mendapat skor yang lebih tinggi, dan saya melancarkannya.
Enam jam kemudian, barisan menunggu sokongan dipenuhi dengan aduan. Saya terpaksa membatalkan perubahan tersebut pada malam itu juga.
Skor yang lebih tinggi itu adalah palsu. Tiga puluh contoh tidak mencukupi untuk membezakan penambahbaikan sebenar daripada sekadar nasib. Nombor tersebut hanyalah gangguan data.
Berikut adalah cara anda menguji prompt tanpa melakukan kesilapan tersebut.
Ujian kecil hanya dapat mengesan perubahan besar. Jika anda ingin mencari penambahbaikan kecil, anda memerlukan lebih banyak contoh. Untuk mencari perubahan yang sangat kecil, anda mungkin memerlukan lebih daripada seribu contoh.
Gunakan soalan yang sama untuk kedua-dua versi. Jangan berikan Versi A satu kumpulan soalan dan Versi B kumpulan yang lain. Sesetengah soalan lebih sukar daripada yang lain. Jika Versi B mendapat soalan yang mudah, ia akan kelihatan lebih baik walaupun sebenarnya ia lebih teruk. Jalankan kedua-dua versi melalui set soalan yang tepat sama.
Lihat julat (range), bukan sekadar purata. Purata tidak memberitahu anda sejauh mana kejayaan tersebut. Laporkan julat penambahbaikan yang paling kecil dan paling besar yang mungkin berlaku. Jika julat tersebut merangkumi sifar, jangan lancarkannya.
Pilih kaedah pemarkahan yang betul. • Gunakan senarai semak untuk kualiti mutlak. • Gunakan perbandingan sebelah-menyebelah untuk kualiti subjektif seperti nada atau kebergunaan.
Gunakan bandit untuk pelbagai versi. Jika anda mempunyai tiga atau lebih versi dan ingin mengehadkan kekecewaan pengguna, gunakan bandit. Ia menghantar lebih banyak trafik ke versi yang menang semasa ia belajar. Ini menghalang pengguna daripada melihat jawapan yang buruk selama berminggu-minggu.
Elakkan perangkap ini:
- Membandingkan purata tanpa julat.
- Menggunakan kumpulan soalan yang berbeza untuk versi yang berbeza.
- Menukar pemarkah anda di tengah-tengah ujian.
- Menghentikan ujian sebaik sahaja angka kelihatan baik.
- Memerhatikan terlalu banyak metrik pada satu masa. Ini meningkatkan peluang anda untuk melihat kemenangan palsu.
- Mempercayai pemarkah sebelum anda mengesahkannya dengan penilaian manusia.
Bahagian yang sukar bukanlah menjalankan ujian tersebut. Bahagian yang sukar adalah mengetahui bila keputusan itu adalah benar.
Source: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f
Optional learning community: https://t.me/GyaanSetuAi
