When Your Agent Misbehaves, Do You Know Which One Did It?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 minggu yang lalu2min read

When Your Agent Misbehaves, Do You Know Which One Did It?

Saat Agen Anda Berulah, Apakah Anda Tahu Mana yang Melakukannya?

Sebuah agen menghapus rekaman yang seharusnya tidak boleh disentuh. Ia mengirim pesan ke tenant yang salah. Ia memanggil API secara berulang-ulang dan membuat tagihan Anda melonjak.

Sepuluh menit setelah insiden terjadi, Anda mengajukan satu pertanyaan: agen mana yang melakukan ini?

Jika Anda tidak tahu, Anda tidak bisa memperbaikinya. Anda tidak bisa menghentikan build. Anda tidak bisa mengaudit kesalahan tersebut. Anda tidak bisa belajar dari kesalahan itu.

Ini adalah masalah identitas.

Sebagian besar tim menghadapi tiga pola yang menyembunyikan tindakan agen:

Shared service accounts: Sepuluh agen menggunakan satu set kredensial yang sama. Setiap tindakan terlihat sama dalam log Anda.
Human credentials: Agen menggunakan login Anda. Log menunjukkan nama Anda, bukan nama agen. Ini menciptakan risiko keamanan yang besar.
Silent drift: Dua build yang berbeda menggunakan nama yang sama. Satu menggunakan model baru atau prompt baru, tetapi log menunjukkan identitas yang sama.

Untuk memperbaikinya, ikuti langkah-langkah berikut:

Berikan setiap agen identitasnya sendiri. Jangan gunakan kredensial manusia. Jangan gunakan akun bersama. Agen harus melakukan autentikasi sebagai dirinya sendiri.
Berikan stempel pada enam bidang spesifik di setiap tindakan:

Accountable party: Siapa yang bertanggung jawab atas agen ini?
Operational owner: Siapa yang memeliharanya setiap hari?
Tenant: Untuk pelanggan mana ini?
Agent-type-id: Build spesifik mana ini?
Agent-instance-id: Run spesifik mana ini?
Trace context: Di mana posisi ini dalam rantai panggilan (call chain)?

Gunakan hash untuk versioning. Jangan beri nama agen Anda "support-agent-v2." Jika Anda mengubah prompt sistem, namanya tetap sama, tetapi perilakunya berubah. Sebaliknya, gunakan hash konten. Buatlah hash berdasarkan container image, prompt, model, dan config. Jika Anda mengubah satu baris kode, ID-nya akan berubah. Ini membuat silent drift menjadi terlihat.
Catat lineage. Agen menghasilkan sub-agen. Anda harus mencatat agen induk mana yang memulai sub-agen tersebut. Anda juga harus mencatat prompt yang diberikan induk kepada sub-agen. Ini adalah satu-satunya cara untuk menemukan instruksi yang disuntikkan atau data yang teracuni (poisoned data).

Identitas adalah recovery surface Anda. Ini memungkinkan Anda menggunakan kill switch dan membangun audit trail. Anda harus menyiapkan ini sebelum insiden terjadi. Menambahkan identitas saat krisis sudah terlambat.

Periksa log Anda sekarang juga. Lihat tindakan dari satu jam yang lalu. Bisakah Anda menyebutkan build spesifik yang melakukan tindakan tersebut? Jika tidak, Anda memiliki celah yang harus ditutup.

Sumber: https://dev.to/brennhill/when-your-agent-does-something-bad-can-you-tell-which-agent-did-it-37a2

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi

When Your Agent Misbehaves, Do You Know Which One Did It?

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Batasan Teraman Adalah Batasan yang Tidak Dapat Dijangkau oleh Agen

Rencana Rollback Agen AI: Batalkan Tindakan Buruk Sebelum Pengguna Kehilangan Kepercayaan

Your Agents Are Fine. The Handoff Between Them Isn't.

Agent Anda Tidak Merusak Prod. Pipeline Anda yang Melakukannya.