AI Agents In Practice: Reading Failures from The Trace
Ejen AI anda tidak terhenti (crash). Ia melaporkan kejayaan. Tetapi akaun bank anda menunjukkan kesilapan.
Bayaran balik telah dibuat untuk pesanan yang tidak pernah dibatalkan. Pelanggan mendapat barangan dan wang tersebut. Ejen itu menyangka ia telah menjalankan tugasnya.
Jangan terus mencari model yang lebih besar. Jangan sekadar menambah gelung cubaan semula (retry loop). Kedua-duanya hanyalah tekaan.
Sebaliknya, baca jejak (trace) tersebut. Ejen itu sudah pun mencatatkan apa yang telah dilakukannya.
Jejak pengeluaran (production trace) yang baik merekodkan gelung langkah demi langkah. Ia mesti menunjukkan:
- Apa yang diperhatikan oleh ejen
- Apa yang diputuskannya
- Alatan (tool) mana yang dipanggilnya
- Apa yang dikembalikan oleh alatan tersebut
- Bacaan pengesahan daripada sumber kebenaran (source of truth)
- Keadaan akhir dan kosnya
Bahagian yang paling penting ialah jurang antara respons alatan dan bacaan pengesahan. Alatan mungkin menyatakan "diterima," tetapi itu tidak bermakna keadaan dunia telah berubah. Bacaan pengesahan memberitahu anda jika perubahan itu benar-benar berlaku.
Kegagalan biasanya terbahagi kepada dua kumpulan:
- Kegagalan Pelaksanaan
- Kegagalan alatan: Argumen yang salah atau masa tamat (timeout).
- Kegagalan penaakulan: Model memilih tindakan yang salah.
- Kegagalan keadaan kawalan: Ejen mempercayai sesuatu yang tidak benar. Ia menyangka pesanan telah dibatalkan kerana alatan mengatakannya, walaupun pangkalan data menyatakan sebaliknya.
- Kegagalan Gelung Berstruktur
- Degradasi konteks: Ejen hilang punca.
- Gelung tidak terkawal (loop runaway): Ejen mengulang langkah tanpa sebarang kemajuan.
- Terhenti senyap (silent stalls): Ejen tergantung tanpa ralat. Anda memerlukan pemantau (watchdog) untuk menganggap kesenyapan sebagai satu kegagalan.
Apabila anda menemui kegagalan, jangan sekadar mencuba semula. Cubaan semula adalah satu strategi, bukan diagnosis.
- Jika ia adalah ralat sementara seperti masa tamat, cuba semula.
- Jika ia adalah ralat logik, mencuba semula hanya akan menghabiskan bajet anda untuk menghadapi masalah yang sama.
- Jika ejen menemui penghalang, berhenti dan beritahu manusia.
Cara terbaik untuk membaiki kegagalan adalah dengan menjadikannya sebagai satu ujian.
Gunakan jejak tersebut untuk menulis penilai (grader). Jika ejen gagal mengesahkan pembatalan, tulis ujian yang akan gagal jika bayaran balik berlaku tanpa status pembatalan yang disahkan. Tukarkan kegagalan yang telah anda bayar kepada kegagalan yang tidak perlu anda bayar dua kali.
Optional learning community: https://t.me/GyaanSetuAi
