𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

Anda menjalankan banyak agen AI kecil. Anda memiliki agen untuk backend, frontend, mobile, dan devops. Setiap agen memiliki satu tugas.

Ketika Anda memiliki banyak agen, Anda menghadapi masalah. Anda tidak tahu apakah mereka bagus. Anda tidak tahu apakah pengeditan prompt membuat mereka lebih baik atau lebih buruk. Mengatakan "kelihatannya oke" tidak akan berhasil dalam skala besar.

Saya membangun sebuah framework untuk menyelesaikan masalah ini. Framework ini menggunakan angka untuk mengukur performa dan memperbaiki prompt secara otomatis.

Strateginya

Ukur apa yang bisa Anda ukur dengan matematika terlebih dahulu. Gunakan LLM judge hanya saat Anda harus melakukannya. Metrik deterministik itu cepat dan gratis. LLM judge itu lambat dan memakan biaya.

Cara kerja sistem:

• Harness menjalankan setiap agen sebagai proses terpisah. • Ia memberikan tugas ke agen. • Ia menangkap outputnya. • Ia memberikan skor pada hasil berdasarkan data yang diharapkan.

Agen hanya perlu membaca dari stdin dan menulis ke stdout. Agen tersebut bisa berupa Python atau shell script. Harness tidak peduli.

Lima metrik inti untuk dilacak:

  • Akurasi: Apakah output sesuai dengan tujuan?
  • Skor fuzzy: Seberapa mirip teks tersebut dengan target?
  • Tingkat timeout: Seberapa sering agen gagal menyelesaikannya?
  • Pelanggaran keamanan: Apakah output sesuai dengan pola yang tidak aman?
  • Variansi reproduksibilitas: Apakah agen memberikan jawaban yang sama setiap saat?

Jika sebuah agen benar tetapi tidak konsisten, itu adalah bug.

LLM Judge

Beberapa hal sulit diukur dengan matematika. Anda perlu tahu apakah agen tetap berada dalam perannya atau mengikuti batasan yang ada.

Untuk kasus-kasus ini, LLM judge meninjau pekerjaannya. Ia menerima rubrik dan output agen. Ia mengembalikan vonis terstruktur. Saya memvalidasi vonis ini terhadap skema JSON agar tidak merusak laporan.

Judge melakukan lebih dari sekadar memberi nilai. Ia harus menyarankan perbaikan. Kritik seperti "ini lemah" tidak berguna. Kritik seperti "tambahkan blok JSON ke dalam prompt" dapat ditindaklanjuti.

Loop Perbaikan

Kegagalan dimasukkan ke dalam sebuah file. File ini memberi makan loop otomatis. Sistem melihat bagian terlemah dari sebuah prompt dan mencoba memperbaikinya. Sistem menyimpan kumpulan kandidat yang baik. Ia menulis versi terbaik kembali ke dalam kode.

Skor tunggal hanyalah sebuah cuplikan. Gunakan riwayat untuk melacak tren. Ini memberi tahu Anda apakah Anda menjadi lebih baik seiring berjalannya waktu.

Bangun fondasi Anda di atas metrik deterministik. Gunakan judge sebagai pisau bedah, bukan palu.

Source: https://dev.to/pponali/scoring-ai-agents-deterministic-metrics-an-llm-judge-poj

Optional learning community: https://t.me/GyaanSetuAi