Agen Saya Melaporkan 12. Angka Sebenarnya Adalah 13.
Saya sedang membangun agen coding yang berjalan secara lokal. Ia menggunakan Claude untuk perencanaan dan model lokal untuk pembuatan kode. Baru-baru ini, saya membiarkan agen tersebut menangani tugas sederhana: menghitung log tertentu.
Agen tersebut melaporkan 12. Saya merasa lelah dengan pembukuan manual, jadi saya hampir menerimanya begitu saja. Kemudian saya melakukan pengecekan manual di terminal saya. Jumlah sebenarnya adalah 13.
Agen tersebut melewatkan satu entri karena bentuknya yang tidak beraturan. Agen tersebut tidak sedang berhalusinasi. Ia hanya "hampir benar." Ini adalah jenis kesalahan yang paling berbahaya. Terlihat cukup masuk akal untuk dipercaya.
Lebih buruk lagi, metrik ringkasan akhirnya terlihat benar. Langkah pembulatan dan pengelompokan menyembunyikan kesalahan tersebut. Jika saya hanya melihat laporan akhirnya, saya tidak akan melihat kesalahan apa pun. Namun data mentahnya salah. Begitu pengukuran mentah Anda salah, setiap laporan di masa mendatang akan mewarisi kesalahan tersebut.
Saya belajar pelajaran berharga tentang kepercayaan dan pengukuran.
Jika Anda membiarkan sistem yang melakukan pekerjaan juga menilai pekerjaan tersebut, Anda memiliki masalah. Anda telah menjadikan peserta ujian sebagai pengujinya. Model probabilistik tidak boleh menjadi satu-satunya sumber kebenaran Anda.
Sekarang saya mengikuti dua aturan baru:
Seorang manusia harus menyaksikan otomatisasi tersebut terlebih dahulu. Sebelum saya mempercayai sistem pengukuran mandiri, saya melakukan penghitungan deterministik sendiri. Saya memperhatikan angka-angka yang muncul di terminal. Saya baru akan melonggarkan aturan ini setelah mesin dan manusia cocok secara sempurna dalam banyak percobaan.
Kaitkan pengukuran pada unit yang dapat diamati. Saya memastikan agen menghitung tepat apa yang dapat dilihat manusia. Jika populasinya longgar, angka-angkanya akan bergeser. Jika populasinya ketat, kita benar-benar dapat membandingkan hasilnya.
Pendekatan ini lebih lambat. Ini tidak dapat diskalakan selamanya. Namun, begitulah cara Anda membangun fondasi kepercayaan.
Anda dapat membiarkan AI menulis kode. Anda dapat membiarkan AI menjalankan analisis. Namun untuk angka-angka yang penting, proses deterministik harus menjadi saksi terakhir.
Di mana Anda menarik garis batasnya? Kapan Anda memutuskan sebuah angka cukup penting untuk diperiksa secara manual?
Sumber: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi
