Ejen AI Anda Lulus Semua Ujian — Kemudian Gagal dalam Produksi
Ejen AI anda berfungsi dengan sempurna dalam persekitaran staging anda. Demo kelihatan hebat. Pengurus produk berasa gembira.
Kemudian anda melancarkannya ke produksi.
Tiga minggu kemudian, anda menerima laporan pepijat. Ejen tersebut memberikan jawapan yang kedengaran betul tetapi sebenarnya salah sama sekali.
Saya melihat perkara ini berlaku pada tahun 2025. Sebuah pasukan melancarkan ejen yang mengalami halusinasi mengenai harga produk untuk pelanggan perusahaan. Ejen tersebut mempunyai skor keyakinan yang tinggi iaitu 0.94. Ketepatan sebenarnya hanyalah 60%.
Pasukan tersebut gagal kerana mereka tidak mempunyai saluran penilaian (evaluation pipeline). Mereka hanya bergantung pada harapan.
Harapan bukanlah satu strategi pelancaran.
Kebanyakan pasukan menghabiskan masa mereka pada seni bina ejen. Mereka fokus pada definisi alatan, prompt, dan logik. Mereka melancarkan dan berdoa.
Ini membawa kepada Measurement Theater. Ini berlaku apabila anda menggunakan papan pemuka (dashboard) dan set ujian untuk membuatkan ejen kelihatan hebat tanpa mengesan kegagalan sebenar. Anda meraikan ketepatan 95% pada penanda aras (benchmarks) sedangkan ejen tersebut gagal dalam 30% pertanyaan pengguna sebenar.
Anda perlu beralih daripada penanda aras statik kepada SkillOps. Ini bermakna menilai kemahiran ejen yang khusus dan bukannya keseluruhan ejen.
Berhenti bertanya sama ada ejen itu berfungsi. Mula bertanya kemahiran khusus manakah yang gagal dan mengapa.
Gunakan rangka kerja ini untuk mengelakkan bencana produksi:
Tentukan tahap "cukup baik" sebelum anda melancarkannya. Tetapkan ambang ketepatan (accuracy thresholds) untuk setiap kemahiran. Kadar ketepatan 85% untuk ringkasan mungkin memadai. Kadar ketepatan 85% untuk harga akan menyebabkan anda kerugian wang.
Bina data yang mencerminkan kehidupan sebenar. Ujian anda mesti mencerminkan apa yang sebenarnya ditanya oleh pengguna, bukan apa yang anda mahu mereka tanya.
Kesan regresi dari hari pertama. Setiap perubahan prompt atau kemas kini alatan mesti mencetuskan ujian automatik sebelum anda melancarkannya.
Pantau keyakinan, bukan sekadar ketepatan. Ejen yang tahu bila ia salah adalah lebih selamat daripada ejen yang terlalu yakin tetapi memberikan jawapan yang salah.
Cipta bajet kegagalan (failure budgets). Tentukan berapa banyak kegagalan yang boleh anda toleransi bagi setiap kemahiran sebelum anda melancarkannya.
Menjelang akhir 2026, penilaian ejen akan menjadi bahagian standard dalam pelancaran. Pasukan yang menggunakan rangka kerja ini akan melancarkan dengan lebih cepat. Pasukan yang tidak menggunakannya akan terus berkata, "Ia berfungsi dalam staging."
Adakah pasukan anda telah membina infrastruktur penilaian untuk ejen AI? Metrik apakah yang sebenarnya mengesan kegagalan anda?
Tinggalkan komen di bawah. Saya akan membalas setiap satu.
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi