Bagaimana Saya Melakukan Ujian A/B Prompt LLM Tanpa Menipu Diri Sendiri

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 minggu lalu2min read

Bagaimana Saya Melakukan Ujian A/B Prompt LLM Tanpa Menipu Diri Sendiri

Cara Saya Melakukan Ujian A/B pada Prompt LLM Tanpa Menipu Diri Sendiri

Saya pernah membina pembantu sokongan dan menyangka saya telah menemui formula yang berjaya. Saya menjalankan tiga puluh kes ujian, prompt baharu mendapat skor yang lebih tinggi, dan saya melancarkannya.

Enam jam kemudian, barisan menunggu sokongan dipenuhi dengan aduan. Saya terpaksa membatalkan perubahan tersebut pada malam itu juga.

Skor yang lebih tinggi itu adalah palsu. Tiga puluh contoh tidak mencukupi untuk membezakan penambahbaikan sebenar daripada sekadar nasib. Nombor tersebut hanyalah gangguan data.

Berikut adalah cara anda menguji prompt tanpa melakukan kesilapan tersebut.

Ujian kecil hanya dapat mengesan perubahan besar. Jika anda ingin mencari penambahbaikan kecil, anda memerlukan lebih banyak contoh. Untuk mencari perubahan yang sangat kecil, anda mungkin memerlukan lebih daripada seribu contoh.
Gunakan soalan yang sama untuk kedua-dua versi. Jangan berikan Versi A satu kumpulan soalan dan Versi B kumpulan yang lain. Sesetengah soalan lebih sukar daripada yang lain. Jika Versi B mendapat soalan yang mudah, ia akan kelihatan lebih baik walaupun sebenarnya ia lebih teruk. Jalankan kedua-dua versi melalui set soalan yang tepat sama.
Lihat julat (range), bukan sekadar purata. Purata tidak memberitahu anda sejauh mana kejayaan tersebut. Laporkan julat penambahbaikan yang paling kecil dan paling besar yang mungkin berlaku. Jika julat tersebut merangkumi sifar, jangan lancarkannya.
Pilih kaedah pemarkahan yang betul. • Gunakan senarai semak untuk kualiti mutlak. • Gunakan perbandingan sebelah-menyebelah untuk kualiti subjektif seperti nada atau kebergunaan.
Gunakan bandit untuk pelbagai versi. Jika anda mempunyai tiga atau lebih versi dan ingin mengehadkan kekecewaan pengguna, gunakan bandit. Ia menghantar lebih banyak trafik ke versi yang menang semasa ia belajar. Ini menghalang pengguna daripada melihat jawapan yang buruk selama berminggu-minggu.

Elakkan perangkap ini:

Membandingkan purata tanpa julat.
Menggunakan kumpulan soalan yang berbeza untuk versi yang berbeza.
Menukar pemarkah anda di tengah-tengah ujian.
Menghentikan ujian sebaik sahaja angka kelihatan baik.
Memerhatikan terlalu banyak metrik pada satu masa. Ini meningkatkan peluang anda untuk melihat kemenangan palsu.
Mempercayai pemarkah sebelum anda mengesahkannya dengan penilaian manusia.

Bahagian yang sukar bukanlah menjalankan ujian tersebut. Bahagian yang sukar adalah mengetahui bila keputusan itu adalah benar.

Source: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

Optional learning community: https://t.me/GyaanSetuAi

Bagaimana Saya Melakukan Ujian A/B Prompt LLM Tanpa Menipu Diri Sendiri

Continue reading

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲

Pembangunan Ejen Berasaskan Penilaian: Bagaimana Saya Berhenti Menala Prompt Berdasarkan Gerak Hati

Apa yang Diajarkan oleh LLM Pantas kepada Saya tentang Andaian

Penilaian Anda Juga Tidak Konsisten: Berhenti Mempercayai Kadar Kelulusan yang Tidak Boleh Dihasilkan Semula

Semakan Kod GLM 5.2 Bergantung Kepada Prompt Anda