Membangun Playground Agen AI Sebelum Produksi

Sebuah agen pengkodean pernah menjalankan skrip pembersihan pada apa yang ia kira adalah database staging. Ternyata itu adalah database produksi. Agen tersebut menghapus pesanan pelanggan selama empat bulan karena ia melakukan tepat seperti yang diperintahkan dengan kredensial yang salah.

Kegagalan ini bukanlah alasan untuk menghindari agen. Ini adalah alasan untuk membangun sebuah playground.

Anda tidak akan memberikan akses database produksi kepada insinyur baru pada hari pertama mereka. Anda memberi mereka lingkungan staging, akses baca-saja (read-only), dan tugas-tugas yang diawasi. Agen membutuhkan proses onboarding yang sama. Mereka dapat melakukan seribu tindakan dalam satu menit, sehingga biaya jika melewatkan playground menjadi seribu kali lebih tinggi.

Sebuah playground yang sesungguhnya harus melakukan tiga hal:

  • Membiarkan agen menjalankan loop keputusannya secara penuh.
  • Menghentikan semua efek samping agar tidak mencapai sistem nyata.
  • Mencatat segalanya untuk inspeksi.

Jangan hanya menguji prompt. Menguji prompt hanyalah mengajukan pertanyaan dan membaca jawaban. Perilaku agen adalah urutan dari tool calls. Kegagalan yang sebenarnya terjadi di tengah-tengah loop saat sebuah tool mengembalikan data yang tidak terduga.

Anda tidak perlu melakukan sandboxing pada model. Anda perlu melakukan sandboxing pada executor.

Letakkan sebuah seam di mana tool calls berubah menjadi tindakan. Gunakan playground executor yang menggunakan mock alih-alih live executor. Agent loop tidak boleh mengetahui perbedaannya. Jika agen Anda memanggil database client secara langsung, Anda tidak memiliki seam dan tidak memiliki keamanan.

Uji tiga area spesifik:

  • Perilaku: Apakah agen memilih tool yang tepat dengan urutan yang benar?
  • Tool calls: Apakah argumennya benar dan berada dalam batas yang aman?
  • Mode kegagalan: Apa yang terjadi saat sebuah API mengalami timeout atau mengembalikan data sampah?

Mock yang selalu berhasil tidak mengajarkan apa pun kepada agen. Playground Anda harus memungkinkan Anda menyuntikkan kegagalan seperti network timeout atau data yang malformed. Inilah cara Anda melihat apakah agen melakukan retry secara masuk akal atau mulai berhalusinasi.

Jika agen Anda menjalankan kode, Anda memerlukan isolasi yang kuat. Gunakan microVMs untuk kode yang tidak terpercaya. Jangan mulai dengan container sederhana hanya karena itu mudah. Pengaturan yang mudah dapat menyebabkan insiden keamanan yang masif.

Ingatlah bahwa agen bersifat non-deterministik. Tes yang berhasil sekali tidak berarti agen tersebut dapat diandalkan. Anda harus menjalankan tugas yang sama berkali-kali. Jika agen berhasil 7 dari 10 kali, ia akan gagal bagi sekitar 30% pengguna nyata Anda. Konsistensi adalah metrik terpenting Anda.

Terakhir, lindungi dari output tool yang bersifat adversarial. Agen memperlakukan data tool sebagai instruksi. Pengguna yang berniat jahat dapat menyisipkan prompt injection ke dalam database untuk mengarahkan agen. Uji agen Anda dengan memberinya payload yang berbahaya di dalam playground.

Bangun jalur kelulusan, bukan tombol peluncuran:

  • Mulai dengan mock dan sandboxing penuh.
  • Uji konsistensi melalui banyak pengujian.
  • Uji terhadap input adversarial.
  • Beralih ke mode dry-run terhadap data yang menyerupai produksi.
  • Baru setelah itu berikan akses yang terukur (scoped), terbatas (gated), dan terpantau.

Berikan agen Anda tempat untuk melakukan kesalahan dengan biaya murah. Dengan begitu, ia dapat melakukan hal yang benar di saat yang krusial.

Source: https://dev.to/nazar_boyko/building-an-ai-agent-playground-before-giving-it-production-access-4glh

Optional learning community: https://t.me/GyaanSetuAi