Agen Anda Sudah Memeriksa Segalanya. Namun Hasilnya Tetap Salah.

Saya menjalankan alur kerja multi-agen. Satu model merancang. Satu menulis kode. Satu meninjaunya. Saya menyetujui hasil akhirnya.

Baru-baru ini, tiga kegagalan lolos melalui pipeline ini. Setiap agen melakukan tugasnya dengan sempurna. Sistemnya konsisten, namun secara konsisten salah.

Ini bukan masalah kecerdasan. Ini adalah masalah batasan (boundary). Seorang agen melakukan tepat seperti apa yang Anda minta dalam konteks yang Anda berikan. Ia tidak akan menemukan hal-hal baru untuk diverifikasi dengan sendirinya.

Berikut adalah tiga kegagalan di dunia nyata dan cara memperbaikinya:

  1. Keberhasilan yang menyembunyikan kegagalan Sebuah pipeline ETL menarik data dari sebuah API. Sesi API kedaluwarsa. Alih-alih kode kesalahan, API mengembalikan HTTP 200 dengan pesan kesalahan di dalam JSON. Agen memeriksa kode kesalahan, tidak menemukannya, dan menganggap data tersebut valid.
  • Solusinya: Gunakan validasi semantik. Jangan hanya memeriksa apakah sebuah panggilan berhasil. Periksa apakah data yang dikembalikan sesuai dengan struktur dan jumlah baris yang diharapkan.
  1. Artefak yang hilang Sebuah generator kode menghasilkan file C untuk sebuah chip. Peninjau mengonfirmasi bahwa kodenya benar. Namun, generator tersebut tidak pernah membuat file tabel widget yang diperlukan. Peninjau memeriksa file yang ada, tetapi tidak memeriksa file yang hilang.
  • Solusinya: Verifikasi kelengkapan output. Selalu buat daftar file yang diperlukan terlebih dahulu. Pastikan setiap file ada dan tidak kosong sebelum lanjut ke langkah berikutnya.
  1. Klaim teknis yang salah Sebuah folder SDK mengklaim ditujukan untuk chip RISC-V, tetapi komentar header menyatakan itu untuk prosesor CSKY. Agen memercayai nama folder dan komentar tersebut. Ia mengabaikan instruksi mesin yang sebenarnya yang membuktikan bahwa klaim tersebut salah.
  • Solusinya: Gunakan verifikasi ground-truth. Jika sebuah file membuat klaim, uji klaim tersebut dengan sebuah perintah. Jangan percaya pada komentar atau nama direktori. Percayalah pada data mentah.

Agen akan memverifikasi apa yang Anda perintahkan untuk diverifikasi. Mereka tidak akan bertanya, "Apa lagi yang mungkin salah?"

Anda harus merancang batasannya. Anda harus membangun titik pemeriksaan (checkpoint) verifikasi di tepi alur kerja Anda.

Sumber: https://dev.to/antonio_zhu_e726fd856cd86/your-agent-checked-everything-it-was-still-wrong-18kd

Komunitas belajar opsional: https://t.me/GyaanSetuAi