Saya Menjalankan Loop Perbaikan Diri pada Agent Saya Setiap Malam
Agent AI saya dulu sering melakukan kesalahan yang sama. Ia akan menjalankan tugas, gagal secara diam-diam, lalu melaporkan bahwa semuanya berjalan dengan sempurna. Ia tidak rusak. Ia hanya tidak punya cara untuk belajar dari kesalahannya.
Saya membangun sebuah loop perbaikan diri untuk mengatasi hal ini.
Setiap malam pukul 02.00 pagi, sebuah sesi terisolasi akan aktif. Ia membaca log dari 24 jam terakhir. Ia menemukan pola dari apa yang salah. Kemudian, ia memperbarui file memori agent. Tidak ada manusia yang terlibat.
Begini cara kerjanya:
- Pisahkan eksekutor dari kritikus. Agent utama menjalankan tugas. Sesi terpisah meninjau hasil kerja. Satu sesi tidak bisa menjadi hakim sekaligus algojo.
- Gunakan file sederhana. Saya menggunakan file teks biasa untuk memori dan koreksi. Ini menjaga sistem tetap ringan.
- Paksa spesifisitas. Saya tidak meminta agent untuk sekadar meningkatkan diri. Saya memintanya untuk menemukan pola, memberikan bukti, dan menyarankan satu perbaikan konkret.
Saya menggunakan tiga file khusus untuk mengelola ini:
- Daily logs: Catatan mentah dari semua yang terjadi.
- Accumulated lessons: Aturan dengan sinyal tinggi yang dibaca agent pada awal setiap sesi.
- Corrections: Tempat untuk perbaikan terbaru. Jika sebuah kesalahan terjadi tiga kali dalam dua minggu, ia akan dipindahkan ke file pelajaran permanen.
Hasilnya tidak instan. Selama tiga minggu pertama, observasinya masih terlihat jelas. Pada minggu keempat, agent mulai menemukan masalah yang mendalam. Ia menemukan kesalahan timing dan pola tersembunyi dalam pesan kesalahan yang saya lewatkan.
Manfaat terbesarnya adalah stabilitas. Jika sebuah masalah muncul kembali setelah saya memperbaikinya, saya tahu perbaikan saya salah. Sistem ini melacak apakah sebuah solusi benar-benar berhasil.
Sistem ini memiliki batasan. Ia dapat melihat kegagalan dalam log, tetapi tidak dapat melihat kesalahan penilaian kecuali saya menandainya. Saya tetap harus memberitahunya ketika ia melakukan hal yang salah dengan alasan yang benar.
Pengaturan ini hanya menggunakan 50 baris konfigurasi dan berjalan dalam waktu kurang dari dua menit. Ini membuat agent saya sedikit lebih baik setiap harinya.
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi