LLM Anda Benar, Tapi Apakah Ia Benar Karena Alasan yang Tepat?

Saya membangun sebuah benchmark untuk melihat apakah LLM dapat menginterpretasikan varian genetik klinis.

Hasil awalnya terlihat buruk. Model tersebut mencatat akurasi 60 persen. Saya hampir menyimpulkan bahwa model tersebut medioker dan tidak layak digunakan.

Saya salah.

Wawasan yang sebenarnya baru muncul ketika saya berhenti mengukur akurasi dan mulai mengukur keamanan.

Dalam genetika klinis, jawaban yang salah bisa berbahaya. Ada dua jenis kesalahan:

  • Abstensi aman: Model mengatakan "tidak pasti" padahal kenyataannya adalah keputusan yang pasti. Ini aman karena manusia akan menyelidikinya.
  • Kesalahan percaya diri: Model membuat keputusan yang berlawanan (misalnya, menyebut varian penyebab penyakit sebagai "jinak"). Ini adalah kegagalan yang berbahaya.

Benchmark saya menunjukkan bahwa model tersebut memiliki nol kesalahan percaya diri. Ia tidak pernah melakukan kesalahan yang berbahaya. Ia hanya memilih untuk tetap diam ketika kekurangan bukti yang cukup.

Ketika saya menggunakan metrik akurasi yang sederhana, saya melabeli model yang aman dan terkalibrasi dengan baik sebagai sebuah kegagalan. Metrik saya adalah masalahnya, bukan modelnya.

Jika Anda membangun benchmark untuk bidang berisiko tinggi seperti kedokteran, hukum, atau keuangan, ikuti aturan-aturan ini:

  • Pisahkan kegagalan yang aman dari yang berbahaya. Jangan pernah menyatukan kejujuran "Saya tidak tahu" dalam satu kategori yang sama dengan kebohongan yang percaya diri.
  • Audit penalaran. Akurasi saja tidak menunjukkan apakah sebuah model sedang mengarang bukti atau mengikuti logika.
  • Jaga bukti Anda tetap nyata. Jangan menyuntikkan data palsu ke dalam pengujian Anda. Jika evaluasi Anda menggunakan data palsu, Anda tidak dapat menguji apakah model tersebut berhalusinasi.
  • Kalibrasi analisis Anda sendiri. Ukuran sampel yang kecil bisa menipu. Jangan memublikasikan temuan sebelum Anda memverifikasinya dengan data yang lebih besar.

Dalam domain berisiko tinggi, model yang tahu kapan harus berhenti lebih berharga daripada model yang hanya menebak-nebak.

Kodenya ada di GitHub: gbadedata/clinvar-interpretation-benchmark.

Postingan lengkap: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

Komunitas belajar opsional: https://t.me/GyaanSetuAi