Memori Agen Anda Kemungkinan Besar Sedang Membohongi Anda

Saya pikir memori agen saya berfungsi selama enam bulan.

Ia mengingat detail di berbagai sesi. Ia menarik konteks untuk proyek. Ia memperbaiki kesalahan. Setiap tanda menunjukkan keberhasilan.

Saya salah.

Claude Code memiliki memorinya sendiri yang sudah terintegrasi. Sistem itulah yang melakukan pekerjaannya. Sistem saya berjalan dan menulis ke penyimpanannya sendiri. Ia tampak sibuk. Ia hanyalah pemeran pengganti di atas panggung di mana aktor lain yang mengucapkan dialognya.

Sistem yang gagal secara mencolok mudah diperbaiki. Anda melihat kesalahannya dan Anda bertindak.

Sistem yang gagal secara diam-diam itu berbahaya. Ia menghasilkan jawaban yang membantu. Ia tampak seperti sebuah keberhasilan. Anda tidak bisa mengetahui apakah sistem Anda benar-benar bekerja hanya dengan melihat outputnya. Outputnya tetap sama.

Anda memerlukan sebuah forcing function untuk menemukan kebenaran. Anda harus mematikan sistem yang lain.

Tes ini berfungsi untuk pengaturan memori agen apa pun. Hanya butuh satu menit.

Ikuti langkah-langkah ini:

• Matikan memori bawaan dari runtime Anda. • Di Claude Code, gunakan perintah ini: CLAUDE_CODE_DISABLE_AUTO_MEMORY=1 • Gunakan agen Anda seperti biasa. • Mintalah ia untuk mengingat sebuah fakta spesifik. • Mulai sesi baru dan tanyakan fakta tersebut.

Perhatikan apa yang dilakukan sistem Anda sendirian.

Jika memorinya berfungsi, sistem Anda kokoh.

Jika memorinya menjadi kosong, penyimpanan bawaanlah yang selama ini menopang Anda. Setiap demo yang Anda berikan hanyalah bayangan, bukan sistem Anda yang sebenarnya.

Saat saya menjalankan tes ini, sistem saya menjadi diam. Keberhasilan selama enam bulan sebenarnya adalah enam bulan di mana sesuatu yang lain menutupi kesalahan saya.

Jika Anda menambahkan memori ke runtime yang sudah memiliki memori, Anda menghadapi risiko ini. Seiring model menjadi lebih cerdas, mereka menyembunyikan celah ini dengan lebih baik. Demo yang dipoles tidak membuktikan sistem Anda bekerja. Itu mungkin hanya membuktikan bahwa model tersebut cukup baik untuk menyembunyikan kegagalan Anda.

Jangan percaya pada jawaban yang bagus. Jalankan off-test. Matikan hal yang lain dan cari tahu siapa yang sebenarnya sedang berbicara.

Butuh waktu enam bulan bagi saya untuk mempelajari ini. Bagi Anda, hanya butuh satu menit.

Sumber: https://dev.to/hendrixxcnc/your-agents-memory-looks-like-it-works-here-is-a-one-minute-test-that-tells-you-if-it-actually-4j2c

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi