Semua Orang Membicarakan Prompt. Di Dalam Loop-lah Agen Benar-benar Gagal

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 minggu yang lalu2min read

𝗘𝘃𝗲𝗿𝘆𝗼𝗻𝗲 𝗧𝗮𝗹𝗸𝘀 𝗔𝗯𝗼𝘂𝘁 𝗣𝗿𝗼𝗺𝗽𝘁𝘀. 𝗧𝗵𝗲 𝗟𝗼𝗼𝗽 𝗜𝘀 𝗪𝗵𝗲𝗿𝗲 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗰𝘁𝘂𝗮𝗹𝗹𝘆 𝗙𝗮𝗶𝗹

Prompt engineering mendapatkan semua perhatian. Orang-orang membagikan prompt dan merasa pintar. Namun dalam sistem agen (agentic systems) yang saya bangun, prompt tidaklah rusak. Loop-lah yang rusak.

Sebuah agen bukanlah sekadar satu prompt dan respons. Ia adalah sebuah loop.

Amati statusnya.
Lakukan tindakan.
Evaluasi hasilnya.
Putuskan untuk lanjut atau berhenti.

Jika salah satu langkah ini gagal, agen tersebut gagal. Saya menganalisis 12 model dalam 1.412 kali percobaan untuk mempelajari hal ini. Berikut adalah cara loop gagal dan cara memperbaikinya.

Kegagalan Loop yang Umum:

Token Spirals: Agen mengulang dirinya sendiri dan menggunakan terlalu banyak token.
Blind Spots: Agen tidak dapat melihat lingkungannya dan mengulangi kesalahan yang sama.
False Success: Agen menghasilkan jawaban yang salah tetapi menganggapnya benar.
Dead Ends: Agen menemukan kesalahan tetapi tidak dapat menggunakan data tersebut untuk berkembang.

Prompt yang lebih baik tidak dapat memperbaiki masalah ini. Anda membutuhkan loop engineering.

Empat Prinsip Desain untuk Loop yang Lebih Baik:

Batasi loop: Tetapkan batas keras pada iterasi dan token. Jika agen mencapai batas maksimal, ia harus berhenti dan meminta bantuan.
Buat lingkungan dapat terbaca: Pastikan langkah observasi memberikan semua fakta kepada agen. Jika agen mengulangi tindakan yang gagal, berarti ia kekurangan informasi yang tepat.
Pisahkan aktor dari evaluator: Jangan biarkan model yang sama memeriksa pekerjaannya sendiri. Gunakan model yang berbeda atau pemeriksaan berbasis aturan (rule-based) untuk menilai output.
Tutup loop: Gunakan kesalahan untuk mendorong perbaikan nyata. Ketika sebuah loop gagal, tambahkan uji regresi agar hal itu tidak terjadi lagi.

Saya membangun agen pendukung bernama RelayOps menggunakan aturan-aturan ini. Kami menggunakan juri independen untuk memberi nilai pada agen tersebut.

Pernah suatu kali, agen tersebut mengutip artikel yang benar tetapi gagal menjawab pertanyaan yang sebenarnya. Pemeriksaan berbasis aturan yang sederhana meloloskannya. Namun, evaluator independen kami menangkapnya. Kami menggunakan kegagalan tersebut untuk memperbaiki sistem dan menambahkan pengujian untuk mencegahnya terjadi lagi.

Agen tersebut tidak perlu menjadi lebih pintar. Loop-lah yang perlu dirancang dengan lebih baik.

Berhentilah hanya fokus pada prompt. Fokuslah pada strukturnya.

Kegagalan loop apa yang pernah Anda lihat? Spiral token, titik buta, atau agen yang salah dengan penuh percaya diri?

Source: https://dev.to/manideep_patibandla/everyone-talks-about-prompts-the-loop-is-where-agents-actually-fail-1cej

Optional learning community: https://t.me/GyaanSetuAi