Menguji Sistem AI Agentik

Membina ejen AI adalah mudah. Memastikan ia tidak bertindak di luar kawalan adalah sukar. Anda memerlukan rangka kerja pengujian yang ketat untuk beralih daripada prototaip kepada pengeluaran.

Ikuti lapan peringkat ini untuk mengamankan ejen anda:

Peringkat 1: Ujian komponen Tulis ujian unit untuk setiap lapisan. Uji ejen penyelidikan anda, alatan carian anda, dan memori anda. Gunakan data olok-olok (mock data) yang diluluskan oleh pakar anda. Gunakan 'stub' untuk API luaran anda seperti Shopify atau Meta. Jika sesuatu API tergendala, ujian anda tidak sepatutnya gagal disebabkan perkara tersebut.

Peringkat 2: Repositori prom Bina perpustakaan prom yang mantap. Tag ia mengikut bidang perniagaan. Sertakan kes kegagalan seperti suntikan prom (prompt injection) dan respons alatan yang kosong. Uji perbualan berbilang pusingan (multi-turn) untuk memastikan memori berfungsi. Pastikan data pengguna tidak bocor antara sesi.

Peringkat 3: Liputan dan trajektori Semak jika setiap alatan benar-benar diaktifkan. Kemudian, semak laluan yang diambil oleh ejen tersebut. Memanggil alatan sahaja tidak mencukupi. Ejen mesti menggunakan alatan yang betul, dengan argumen yang betul, dalam urutan yang betul.

Peringkat 4: Larian berversi Tandakan setiap larian dengan nombor versi. Simpan setiap respons. Jalankan setiap prom beberapa kali untuk mengambil kira rawak model. Jejaki kadar kelulusan, kos, token, dan kependaman (latency) anda. Ketepatan adalah satu imbangan perniagaan antara kelajuan dan harga.

Peringkat 5: Simpanan kebenaran asas (ground truth) Simpan jawapan yang telah disahkan untuk setiap prom. Tentukan siapa yang boleh mengubah jawapan ini. Jika anda tidak mengemas kini 'ground truth' anda apabila produk anda berubah, ujian anda akan gagal secara tepat.

Peringkat 6: Penilai Berikan skor pada larian berdasarkan 'ground truth' anda. Gunakan hakim LLM untuk menyemak ketepatan (precision) dan kebenaran. Berwaspada terhadap bias hakim. Bandingkan skor LLM dengan label manusia untuk memastikan ketepatan.

Peringkat 7: Semakan manusia Cipta papan pemuka (dashboard) untuk kes-kes yang mendapat skor rendah. Biarkan manusia membetulkan ralat tersebut. Gunakan pembetulan manusia ini untuk melatih hakim LLM anda.

Peringkat 8: Integrasi CI/CD Jalankan ujian komponen pada setiap permintaan tarik (pull request). Jalankan keseluruhan set ujian setiap malam. Tetapkan ambang (threshold) yang menyekat deployment jika skor menurun.

Source: https://dev.to/manikandan_pandurangan_16/dont-let-your-jarvis-become-ultron-a-field-guide-to-testing-agentic-ai-system-5c7m

Optional learning community: https://t.me/GyaanSetuAi