LLM Anda Benar, Tapi Apakah Ia Benar karena Alasan yang Tepat?

Translated for your language. Read the original.

AI-assisted draft.

4 jam yang lalu2min read

LLM Anda Benar, Tapi Apakah Ia Benar Karena Alasan yang Tepat?

Saya membangun sebuah benchmark untuk melihat apakah LLM dapat menginterpretasikan varian genetik klinis.

Hasil awalnya terlihat buruk. Model tersebut mencatat akurasi 60 persen. Saya hampir menyimpulkan bahwa model tersebut medioker dan tidak layak digunakan.

Saya salah.

Wawasan yang sebenarnya baru muncul ketika saya berhenti mengukur akurasi dan mulai mengukur keamanan.

Dalam genetika klinis, jawaban yang salah bisa berbahaya. Ada dua jenis kesalahan:

Abstensi aman: Model mengatakan "tidak pasti" padahal kenyataannya adalah keputusan yang pasti. Ini aman karena manusia akan menyelidikinya.
Kesalahan percaya diri: Model membuat keputusan yang berlawanan (misalnya, menyebut varian penyebab penyakit sebagai "jinak"). Ini adalah kegagalan yang berbahaya.

Benchmark saya menunjukkan bahwa model tersebut memiliki nol kesalahan percaya diri. Ia tidak pernah melakukan kesalahan yang berbahaya. Ia hanya memilih untuk tetap diam ketika kekurangan bukti yang cukup.

Ketika saya menggunakan metrik akurasi yang sederhana, saya melabeli model yang aman dan terkalibrasi dengan baik sebagai sebuah kegagalan. Metrik saya adalah masalahnya, bukan modelnya.

Jika Anda membangun benchmark untuk bidang berisiko tinggi seperti kedokteran, hukum, atau keuangan, ikuti aturan-aturan ini:

Pisahkan kegagalan yang aman dari yang berbahaya. Jangan pernah menyatukan kejujuran "Saya tidak tahu" dalam satu kategori yang sama dengan kebohongan yang percaya diri.
Audit penalaran. Akurasi saja tidak menunjukkan apakah sebuah model sedang mengarang bukti atau mengikuti logika.
Jaga bukti Anda tetap nyata. Jangan menyuntikkan data palsu ke dalam pengujian Anda. Jika evaluasi Anda menggunakan data palsu, Anda tidak dapat menguji apakah model tersebut berhalusinasi.
Kalibrasi analisis Anda sendiri. Ukuran sampel yang kecil bisa menipu. Jangan memublikasikan temuan sebelum Anda memverifikasinya dengan data yang lebih besar.

Dalam domain berisiko tinggi, model yang tahu kapan harus berhenti lebih berharga daripada model yang hanya menebak-nebak.

Kodenya ada di GitHub: gbadedata/clinvar-interpretation-benchmark.

Postingan lengkap: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

Komunitas belajar opsional: https://t.me/GyaanSetuAi

LLM Anda Benar, Tapi Apakah Ia Benar karena Alasan yang Tepat?

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

Alignment Faking pada LLM

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲