Ejen AI Anda Lulus Semua Ujian — Kemudian Gagal dalam Produksi

📅3 hours ago⏱2 min read

Ejen AI Anda Lulus Semua Ujian — Kemudian Gagal dalam Produksi

Ejen AI anda berfungsi dengan sempurna dalam persekitaran staging anda. Demo kelihatan hebat. Pengurus produk berasa gembira.

Kemudian anda melancarkannya ke produksi.

Tiga minggu kemudian, anda menerima laporan pepijat. Ejen tersebut memberikan jawapan yang kedengaran betul tetapi sebenarnya salah sama sekali.

Saya melihat perkara ini berlaku pada tahun 2025. Sebuah pasukan melancarkan ejen yang mengalami halusinasi mengenai harga produk untuk pelanggan perusahaan. Ejen tersebut mempunyai skor keyakinan yang tinggi iaitu 0.94. Ketepatan sebenarnya hanyalah 60%.

Pasukan tersebut gagal kerana mereka tidak mempunyai saluran penilaian (evaluation pipeline). Mereka hanya bergantung pada harapan.

Harapan bukanlah satu strategi pelancaran.

Kebanyakan pasukan menghabiskan masa mereka pada seni bina ejen. Mereka fokus pada definisi alatan, prompt, dan logik. Mereka melancarkan dan berdoa.

Ini membawa kepada Measurement Theater. Ini berlaku apabila anda menggunakan papan pemuka (dashboard) dan set ujian untuk membuatkan ejen kelihatan hebat tanpa mengesan kegagalan sebenar. Anda meraikan ketepatan 95% pada penanda aras (benchmarks) sedangkan ejen tersebut gagal dalam 30% pertanyaan pengguna sebenar.

Anda perlu beralih daripada penanda aras statik kepada SkillOps. Ini bermakna menilai kemahiran ejen yang khusus dan bukannya keseluruhan ejen.

Berhenti bertanya sama ada ejen itu berfungsi. Mula bertanya kemahiran khusus manakah yang gagal dan mengapa.

Gunakan rangka kerja ini untuk mengelakkan bencana produksi:

Tentukan tahap "cukup baik" sebelum anda melancarkannya. Tetapkan ambang ketepatan (accuracy thresholds) untuk setiap kemahiran. Kadar ketepatan 85% untuk ringkasan mungkin memadai. Kadar ketepatan 85% untuk harga akan menyebabkan anda kerugian wang.
Bina data yang mencerminkan kehidupan sebenar. Ujian anda mesti mencerminkan apa yang sebenarnya ditanya oleh pengguna, bukan apa yang anda mahu mereka tanya.
Kesan regresi dari hari pertama. Setiap perubahan prompt atau kemas kini alatan mesti mencetuskan ujian automatik sebelum anda melancarkannya.
Pantau keyakinan, bukan sekadar ketepatan. Ejen yang tahu bila ia salah adalah lebih selamat daripada ejen yang terlalu yakin tetapi memberikan jawapan yang salah.
Cipta bajet kegagalan (failure budgets). Tentukan berapa banyak kegagalan yang boleh anda toleransi bagi setiap kemahiran sebelum anda melancarkannya.

Menjelang akhir 2026, penilaian ejen akan menjadi bahagian standard dalam pelancaran. Pasukan yang menggunakan rangka kerja ini akan melancarkan dengan lebih cepat. Pasukan yang tidak menggunakannya akan terus berkata, "Ia berfungsi dalam staging."

Adakah pasukan anda telah membina infrastruktur penilaian untuk ejen AI? Metrik apakah yang sebenarnya mengesan kegagalan anda?

Tinggalkan komen di bawah. Saya akan membalas setiap satu.

Sumber: https://dev.to/xu_xu_b2179aa8fc958d531d1/your-ai-agent-passed-all-tests-then-failed-in-production-heres-the-framework-nobody-told-you-329

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

Ejen AI Anda Lulus Semua Ujian — Kemudian Gagal dalam Produksi

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗗𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗚𝘂𝗶𝗱𝗲 (𝟮𝟬𝟮𝟲)

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗗𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗚𝘂𝗶𝗱𝗲 (𝟮𝟬𝟮𝟲)

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗶𝗻 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝘁 𝗔𝗴𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀