Guardrail untuk Agen AI Perusahaan
Sebagian besar saran mengenai guardrail AI terdengar seperti tawaran penjualan. Fokusnya hanya pada diagram mewah dan daftar periksa.
Keamanan produksi yang sesungguhnya tidaklah semegah itu. Ia bergantung pada hal-hal yang sudah ada jauh sebelum LLM.
Saya menghabiskan dua tahun membangun agen AI untuk perusahaan Fortune 100. Agen-agen ini menangani kegagalan CI/CD, insiden Kubernetes, dan dokumentasi infrastruktur.
Berikut adalah lapisan stack yang kami gunakan untuk menjaga keamanannya.
Identitas pada batas agen. Setiap agen menggunakan identitas beban kerja (workload identity). Ia tidak pernah menggunakan kredensial bersama. Cakupan IAM adalah batas keamanan Anda. Jika agen tidak memerlukan akses database, peran IAM tidak boleh memilikinya. Ini adalah kontrol terpenting Anda.
Daftar izin alat (tool allow-lists). Platform menentukan alat mana yang dapat dilihat oleh agen. Agen pencarian kode tidak boleh memiliki alat email. Kami menggunakan konfigurasi statis untuk hal ini. Kami tidak pernah menggunakan registrasi alat secara dinamis.
Kontrol egress jaringan. Agen hanya dapat menjangkau endpoint yang masuk dalam daftar izin. Kami menggunakan penyaringan DNS dan egress proxy. Ini mencegah halusinasi model mengakses URL yang salah.
Isolasi rahasia (secrets isolation). Agen tidak pernah melihat rahasia mentah. Kami menggunakan token sesi berdurasi singkat yang disuntikkan selama pemanggilan alat. Jangan pernah memasukkan rahasia ke dalam prompt. Apa pun yang ada dalam prompt dapat dicatat atau diputar ulang.
Jejak audit lengkap. Anda harus mencatat setiap pemanggilan model dan setiap pemanggilan alat. Ini mencakup input, output, argumen alat, dan identitas pengguna. Anda memerlukan ini untuk memahami apa yang salah selama terjadi insiden.
Persetujuan manusia. Untuk tindakan apa pun yang mengubah sistem catatan (system of record), platform harus berhenti sejenak. Seorang manusia harus menyetujui tindakan tersebut. Ini adalah jaring pengaman Anda.
Hindari kesalahan umum berikut:
Instruksi tingkat prompt. Memberitahu model "jangan pernah lakukan X" bukanlah keamanan. Pengguna dapat menipu model. Pindahkan kontrol ke lapisan IAM atau alat.
Filter PII generik. Filter ini memiliki tingkat kesalahan yang tinggi. Lebih baik membatasi akses data melalui IAM sehingga agen tidak pernah melihat informasi sensitif.
Model guardrail. Menggunakan LLM kedua untuk menilai yang pertama menambah latensi. Ini bukan kontrol keamanan yang sesungguhnya. Ini hanyalah sebuah model ensemble.
Pelajaran yang saya dapatkan dengan cara yang sulit:
Perbaiki IAM sebelum prompt. Saya membuang waktu menyetel prompt padahal seharusnya saya memperketat peran IAM. Pindahkan kontrol ke lapisan stack serendah mungkin.
Bangun jejak audit Anda secara maksimal. Menangkap prompt dan jawaban saja tidaklah cukup. Anda memerlukan panggilan alat (tool calls) dan argumen perantara. Mencatatnya sejak dini itu murah, tetapi memperbaikinya di kemudian hari itu mahal.
Batasi komunikasi agen. Dalam sistem multi-agen, tetapkan batas maksimal pada panggilan antar-agen. Ini mencegah kegagalan beruntun (cascading failures).
Keamanan AI dalam skala besar bukanlah masalah model. Ini adalah masalah platform. Perlakukan agen Anda dengan disiplin operasional yang sama seperti sistem produksi lainnya.
Komunitas belajar opsional: https://t.me/GyaanSetuAi