CI Anda Lulus. Agen Anda Belum Siap Operasional

Kami mengirimkan agen dokumen ke klien perusahaan pada kuartal lalu.

Rangkaian pengujian kami menunjukkan tingkat kelulusan 94%.

Tiga minggu setelah uji coba dimulai, agen tersebut mulai mengeluarkan pengembalian dana (refund) untuk faktur yang tidak dapat dibacanya. Hal ini dilakukan secara diam-diam. Tidak ada kesalahan atau log yang muncul. Agen tersebut hanya memberikan jawaban salah yang terlihat benar.

CI kami tetap berwarna hijau sepanjang waktu.

Masalahnya bukan pada model atau prompt. Masalahnya adalah 6% data yang tidak kami uji. 6% tersebut muncul sebagai data nyata pertama dari operator.

Itu bukan sebuah edge case. Itulah definisi dari siap operasional (operator-ready).

Siap produksi (production-ready) adalah tentang infrastruktur. Artinya layanan Anda tetap berjalan dan mampu menangani beban kerja.

Siap operasional (operator-ready) itu berbeda. Artinya agen Anda bekerja untuk seseorang yang tidak membangunnya. Ia bekerja pada data yang tidak Anda rancang. Ia membuat keputusan dengan konsekuensi nyata.

Sebagian besar alur pengujian (test pipeline) mengukur tingkat kelulusan pada set data yang Anda buat sendiri. Mereka tidak mengukur apa yang terjadi ketika data nyata berbeda dari set pengujian Anda.

Model dengan tingkat keberhasilan validasi 97% terdengar bagus. Namun, lihatlah 3% yang gagal.

Jika agen Anda mengisi kolom yang kosong dengan nilai default saat melakukan percobaan ulang (retry), Anda telah membangun mesin kesalahan yang diam-diam. Skemanya lolos, tetapi datanya salah.

Untuk memperbaikinya, pisahkan validitas skema dari kepercayaan konten (content confidence).

Kami menambahkan skor kepercayaan (confidence score) pada setiap respons. Kepercayaan rendah kini memicu peninjauan manusia alih-alih melakukan percobaan ulang. Perubahan ini berhasil menangkap 14 dari 18 insiden pertama kami.

Set pengujian Anda mencakup apa yang Anda pikirkan. Data operator mencakup apa yang Anda lewatkan.

Dalam kasus kami, kami menguji faktur satu halaman. Operator menggunakan faktur multi-halaman dengan PDF hasil pemindaian (scanned). Agen tersebut gagal pada format baru tersebut.

Jangan hanya memperbaiki parser. Ujilah terhadap data operator yang sebenarnya sebelum Anda meluncurkan produk (go live).

Sebelum serah terima apa pun, kini kami mewajibkan 50 dokumen dari data milik operator sendiri. Kami tidak menggunakan data sintetis. Kami menggunakan data mereka.

Anda juga memerlukan jejak audit (audit trail) yang lengkap. Jangan hanya mencatat apa yang dikembalikan oleh model. Catat juga apa yang diputuskan oleh model untuk tidak dilakukan.

Jejak audit minimum memerlukan:

  • Output dengan skor kepercayaan tingkat kolom (field-level confidence scores)
  • Indikator fallback yang menunjukkan apakah agen melakukan percobaan ulang
  • Hash input untuk memutar ulang dokumen yang sama persis
  • Versi model dan prompt spesifik yang digunakan

Sebelum Anda menyerahkan agen kepada operator, periksa lima hal ini:

  • Jalankan 50+ sampel dari data aktual operator.
  • Cari log untuk output yang lolos pemeriksaan skema tetapi menyebabkan kesalahan di tahap selanjutnya (downstream errors).
  • Berikan input yang tidak valid (malformed) untuk memastikan agen gagal dengan aman (fails safely).
  • Pastikan Anda dapat menjawab apa yang terjadi pada dokumen tertentu dalam waktu kurang dari 5 menit.
  • Pastikan agen memiliki izin (permissions) sekecil mungkin.

Tingkat kelulusan pengujian kami adalah 94%. Tingkat kesalahan kami pada bulan pertama adalah 8%.

Setelah kami menambahkan skor kepercayaan, pengujian dunia nyata, dan log yang lebih baik, tingkat kesalahan turun menjadi 1,4%.

Skor pengujian bukanlah masalahnya. Cakupan pengujianlah masalahnya.

Sumber: https://dev.to/ethanwritesai/our-ci-passed-your-agent-isnt-operator-ready-2mfn

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi