Penilaian Anda Juga Tidak Konsisten: Berhenti Mempercayai Kadar Kelulusan yang Tidak Boleh Dihasilkan Semula

Translated for your language. Read the original.

AI-assisted draft.

Penilaian Anda Juga Tidak Konsisten: Berhenti Mempercayai Kadar Kelulusan yang Tidak Boleh Dihasilkan Semula

Penilaian Anda Juga Tidak Stabil: Berhenti Mempercayai Kadar Kelulusan yang Tidak Boleh Anda Ulangi

Kebanyakan orang tahu ejen AI adalah bukan deterministik. Anda menghantar prompt yang sama, tetapi anda mendapat output yang berbeza.

Kami menerima perkara ini. Kami mula menggunakan LLM sebagai hakim untuk menilai ejen-ejen ini.

Tetapi kami melakukan kesilapan besar. Kami menganggap hakim kami adalah deterministik. Hakikatnya tidak.

Set penilaian anda adalah sistem rawak yang menilai sistem rawak yang lain. Jika anda tidak mengukur sejauh mana penilai anda goyah, anda tidak mempunyai gerbang kualiti. Anda hanya mempunyai lambungan syiling.

Saya melihat perkara ini berlaku pada ejen sokongan. Papan pemuka kekal hijau selama berminggu-minggu. Kemudian, aduan pelanggan melonjak. Saya menjalankan penilaian yang sama pada 200 respons lama. 14 daripadanya mengubah keputusan. Ejen tersebut tidak berubah. Hakimnya yang berubah fikiran.

Gerbang yang tidak stabil adalah lebih buruk daripada tiada gerbang langsung. Ia memberi anda keyakinan palsu.

Terdapat tiga sebab mengapa penilaian anda gagal:

Model hakim: Setiap hakim LLM mempunyai varians. Walaupun pada suhu (temperature) 0, penyedia tidak menjamin keputusan yang sama. Kemas kini model secara senyap boleh merosakkan garis dasar anda dalam semalam.
Kerangka (harness): Jika konteks atau output alatan anda berubah antara larian, hakim akan melihat soalan yang berbeza. Input telah beralih.
Rubrik: Peraturan kabur seperti "adakah ini bagus?" mewujudkan varians. Peraturan yang ketat dan khusus dapat mengurangkannya.

Anda mesti melayan penilaian yang tidak stabil seperti ujian perisian yang tidak stabil. Jangan lancarkannya. Kuarantinkannya. Ukur kadar ketidakstabilannya.

Berhenti melaporkan kadar kelulusan tunggal. Mula melaporkan tahap persetujuan (agreement).

Jalankan setiap panggilan hakim beberapa kali. Jika hakim tidak dapat bersetuju dengan dirinya sendiri, keputusan tersebut bukanlah satu isyarat. Ia adalah TIDAK STABIL (UNSTABLE).

Keputusan yang TIDAK STABIL harus menjadi hasil utama dalam saluran paip (pipeline) CI/CD anda. Ia harus gagal secara jelas.

Untuk membaiki penilaian yang tidak stabil, anda memerlukan dua perkara:

Lapisan pemarkahan: Ini mengira kestabilan dan menukarkan keputusan kepada LULUS (PASS), GAGAL (FAIL), atau TIDAK STABIL (UNSTABLE).
Lapisan penjejakan: Anda mesti melihat bait mentah, prompt yang tepat, dan output alatan bagi setiap larian.

Tanpa penjejakan, anda akan menyangka model tersebut hanyalah rawak. Anda akan merendahkan suhu (temperature) dan menyangka anda telah membaikinya. Anda tidak membaikinya. Anda hanya menjadikan pepijat (bug) itu lebih senyap.

Ikuti peraturan ini untuk membina kualiti sebenar:

Laporkan persetujuan, bukan sekadar purata.
Jadikan TIDAK STABIL (UNSTABLE) sebagai keadaan gagal dalam saluran paip anda.
Tetapkan (pin) versi model hakim anda.
Baca penjejakan apabila semakan gagal.

Papan pemuka hijau yang tidak boleh anda ulangi bukanlah satu isyarat. Ia hanyalah cerita yang anda reka untuk diri sendiri.

Source: https://dev.to/saurav_bhattacharya/your-evals-are-flaky-too-stop-trusting-a-pass-rate-you-cant-reproduce-6pk

Optional learning community: https://t.me/GyaanSetuAi

Penilaian Anda Juga Tidak Konsisten: Berhenti Mempercayai Kadar Kelulusan yang Tidak Boleh Dihasilkan Semula

Continue reading

Pembangunan Ejen Berasaskan Penilaian: Bagaimana Saya Berhenti Menala Prompt Berdasarkan Gerak Hati

Kami Berhenti Mempercayai Model. Kemudian Kami Berhenti Mempercayai Angka Kami Sendiri.