My Agent Reported 12. The Real Number Was 13.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 minggu yang lalu2min read

My Agent Reported 12. The Real Number Was 13.

Agen Saya Melaporkan 12. Angka Sebenarnya Adalah 13.

Saya sedang membangun agen coding yang berjalan secara lokal. Ia menggunakan Claude untuk perencanaan dan model lokal untuk pembuatan kode. Baru-baru ini, saya membiarkan agen tersebut menangani tugas sederhana: menghitung log tertentu.

Agen tersebut melaporkan 12. Saya merasa lelah dengan pembukuan manual, jadi saya hampir menerimanya begitu saja. Kemudian saya melakukan pengecekan manual di terminal saya. Jumlah sebenarnya adalah 13.

Agen tersebut melewatkan satu entri karena bentuknya yang tidak beraturan. Agen tersebut tidak sedang berhalusinasi. Ia hanya "hampir benar." Ini adalah jenis kesalahan yang paling berbahaya. Terlihat cukup masuk akal untuk dipercaya.

Lebih buruk lagi, metrik ringkasan akhirnya terlihat benar. Langkah pembulatan dan pengelompokan menyembunyikan kesalahan tersebut. Jika saya hanya melihat laporan akhirnya, saya tidak akan melihat kesalahan apa pun. Namun data mentahnya salah. Begitu pengukuran mentah Anda salah, setiap laporan di masa mendatang akan mewarisi kesalahan tersebut.

Saya belajar pelajaran berharga tentang kepercayaan dan pengukuran.

Jika Anda membiarkan sistem yang melakukan pekerjaan juga menilai pekerjaan tersebut, Anda memiliki masalah. Anda telah menjadikan peserta ujian sebagai pengujinya. Model probabilistik tidak boleh menjadi satu-satunya sumber kebenaran Anda.

Sekarang saya mengikuti dua aturan baru:

Seorang manusia harus menyaksikan otomatisasi tersebut terlebih dahulu. Sebelum saya mempercayai sistem pengukuran mandiri, saya melakukan penghitungan deterministik sendiri. Saya memperhatikan angka-angka yang muncul di terminal. Saya baru akan melonggarkan aturan ini setelah mesin dan manusia cocok secara sempurna dalam banyak percobaan.
Kaitkan pengukuran pada unit yang dapat diamati. Saya memastikan agen menghitung tepat apa yang dapat dilihat manusia. Jika populasinya longgar, angka-angkanya akan bergeser. Jika populasinya ketat, kita benar-benar dapat membandingkan hasilnya.

Pendekatan ini lebih lambat. Ini tidak dapat diskalakan selamanya. Namun, begitulah cara Anda membangun fondasi kepercayaan.

Anda dapat membiarkan AI menulis kode. Anda dapat membiarkan AI menjalankan analisis. Namun untuk angka-angka yang penting, proses deterministik harus menjadi saksi terakhir.

Di mana Anda menarik garis batasnya? Kapan Anda memutuskan sebuah angka cukup penting untuk diperiksa secara manual?

Sumber: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi

My Agent Reported 12. The Real Number Was 13.

Continue reading

𝗧𝗵𝗲 𝗡𝘂𝗹𝗹 𝗜𝗻𝗽𝘂𝘁 𝗧𝗵𝗮𝘁 𝗕𝗿𝗼𝗸𝗲 𝗠𝘆 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗔𝗴𝗲𝗻𝘁

Kami Berhenti Memercayai Model. Lalu Kami Berhenti Memercayai Angka Kami Sendiri.

Apa yang Saya Pelajari dari Menjalankan AI Agent di Produksi

Stack Tepat yang Saya Gunakan untuk Membangun Agen AI Produksi

Siklus Agenik: Panduan Lapangan Praktis