Demo Agent Anda Berhasil. Itulah Jebakannya.
Saya membangun AI agent untuk perusahaan. Saya sering melihat pola yang sama. Modelnya berhasil dalam demo. Anda merilis produknya. Lalu, ia gagal satu dari setiap tiga kali saat di produksi. Tidak ada yang tahu mengapa.
Kesenjangan antara demo dan produksi adalah masalah matematika. Begitu Anda memahami matematikanya, Anda akan membangun dengan cara yang berbeda.
Jika setiap langkah dalam agent Anda memiliki reliabilitas 95%, kedengarannya bagus. Namun, agent menggunakan rangkaian langkah. Jika Anda merangkai sepuluh langkah, tingkat keberhasilan Anda turun menjadi 60%. Jika Anda menggunakan dua puluh langkah, tingkat keberhasilan Anda turun menjadi 36%.
Dalam pekerjaan nyata, langkah-langkah sering kali memiliki tingkat kesalahan 10% hingga 20%. Jika sebuah agent memiliki delapan langkah dengan reliabilitas 85%, ia akan gagal 75% dari total waktu.
Modelnya bukanlah masalahnya. Probabilitas yang berakumulasi adalah masalahnya.
Demo menunjukkan satu happy path saja. Ia menggunakan input yang bersih dan rangkaian yang pendek. Produksi menggunakan data yang berantakan dari ratusan pengguna. Ia menggunakan rangkaian panjang yang mencakup langkah-langkah tersembunyi.
Kegagalan pada agent tidak terlihat seperti crash. Ia terlihat seperti kesalahan yang sunyi.
Langkah 3 salah membaca sebuah field. Output-nya masih terlihat seperti JSON yang valid. Langkah 4 menggunakan data buruk tersebut untuk melakukan penalaran. Langkah 5 hingga 8 dibangun di atas kesalahan tersebut. Jawaban akhirnya salah tetapi terlihat masuk akal. Tidak ada log kesalahan yang menunjukkan di mana letak kesalahannya.
Berhentilah mengatakan modelnya berhalusinasi. Model tersebut hanya meneruskan data buruk yang diterimanya. Sistem Anda kekurangan checkpoint untuk menangkap kesalahan pada langkah 3.
Berhentilah memperlakukan agent sebagai sebuah prompt. Mulailah memperlakukannya sebagai sebuah sistem.
Ikuti aturan-aturan ini untuk membangun agent yang andal:
Simpan state di luar agent. Simpan state dalam database, bukan dalam percakapan. Jika sebuah proses gagal pada langkah 6, Anda dapat melanjutkannya di langkah 6. Anda tidak perlu mengulang seluruh rangkaian.
Validasi pada batas-batasnya (boundaries). Periksa setiap input dan output terhadap sebuah schema. Tangkap kesalahan pada langkah saat kesalahan itu terjadi. Ini mengubah sebuah misteri menjadi kesalahan yang dapat dipulihkan (recoverable error).
Buat side effect menjadi idempotent. Anda harus mencoba kembali (retry) langkah-langkah saat gagal. Jika sebuah langkah mengirim email atau menagih kartu, gunakan idempotency key. Ini mencegah tindakan duplikat selama proses retry.
Gunakan evals dalam CI Anda. Perilaku agent berubah dengan setiap penyesuaian. Perubahan prompt mungkin memperbaiki satu kasus tetapi merusak lima kasus lainnya. Gunakan set pengujian untuk menangkap regresi ini secara otomatis.
Beralih dari demo ke produk nyata adalah tentang engineering. Ini tentang error handling, state management, dan observability. Ini bukan tentang prompt yang lebih baik.
Jika agent Anda tidak stabil di produksi, jangan mencari model yang lebih besar. Carilah langkah di mana rangkaian tersebut melenceng. Tanyakan mengapa sistem Anda tidak menangkap kesalahan di sana.
Sumber: https://dev.to/sagar_jain4010/your-agent-demo-works-thats-the-trap-4joc
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi
