𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝘂𝗻𝘁𝘂𝗸 𝗘𝗷𝗲𝗻 𝗔𝗜 𝗣𝗲𝗿𝘂𝘀𝗮𝗵𝗮𝗮𝗻
Kebanyakan nasihat mengenai guardrail AI kedengaran seperti taktik jualan. Ia hanya menumpukan pada rajah yang gah dan senarai semak.
Keselamatan pengeluaran (production) yang sebenar tidaklah seindah itu. Ia bergantung pada perkara yang telah wujud lama sebelum adanya LLM.
Saya menghabiskan masa selama dua tahun membina ejen AI untuk sebuah syarikat Fortune 100. Ejen-ejen ini mengendalikan kegagalan CI/CD, insiden Kubernetes, dan dokumentasi infrastruktur.
Berikut adalah lapisan stack yang kami gunakan untuk memastikan keselamatannya.
Identiti pada sempadan ejen. Setiap ejen menggunakan identiti beban kerja (workload identity). Ia tidak pernah menggunakan kredensial kongsi. Skop IAM adalah had keselamatan anda. Jika ejen tidak memerlukan akses pangkalan data, peranan IAM tidak boleh memilikinya. Ini adalah kawalan paling penting anda.
Senarai putih alatan (Tool allow-lists). Platform menentukan alatan mana yang boleh dilihat oleh ejen. Ejen carian kod tidak sepatutnya mempunyai alatan e-mel. Kami menggunakan konfigurasi statik untuk tujuan ini. Kami tidak pernah menggunakan pendaftaran alatan dinamik.
Kawalan egress rangkaian. Ejen hanya boleh mencapai titik akhir (endpoints) yang disenarai putih. Kami menggunakan penapisan DNS dan proksi egress. Ini menghalang halusinasi model daripada mengakses URL yang salah.
Pengasingan rahsia (Secrets isolation). Ejen tidak pernah melihat rahsia mentah. Kami menggunakan token sesi jangka pendek yang disuntik semasa panggilan alatan. Jangan sesekali meletakkan rahsia dalam prompt. Apa sahaja dalam prompt boleh direkodkan atau dimainkan semula.
Jejak audit penuh. Anda mesti merekodkan setiap panggilan model dan setiap panggilan alatan. Ini termasuk input, output, argumen alatan, dan identiti pengguna. Anda memerlukan ini untuk memahami apa yang tidak kena semasa sesuatu insiden berlaku.
Kelulusan manusia. Untuk sebarang tindakan yang mengubah sistem rekod (system of record), platform mesti berhenti seketika. Manusia mesti meluluskan tindakan tersebut. Ini adalah jaring keselamatan anda.
Elakkan kesilapan biasa ini:
Arahan pada tahap prompt. Memberitahu model "jangan sesekali lakukan X" bukanlah satu keselamatan. Pengguna boleh memperdaya model tersebut. Alihkan kawalan ke lapisan IAM atau alatan.
Penapis PII generik. Penapis ini mempunyai kadar ralat yang tinggi. Adalah lebih baik untuk mengehadkan akses data melalui IAM supaya ejen tidak pernah melihat maklumat sensitif.
Model guardrail. Menggunakan LLM kedua untuk menilai yang pertama akan menambah kependaman (latency). Ia bukan kawalan keselamatan yang sebenar. Ia hanyalah satu ansambel model (model ensemble).
Pengajaran yang saya pelajari melalui pengalaman pahit:
Baiki IAM sebelum prompt. Saya membazir masa mengoptimumkan prompt sedangkan saya sepatutnya memperketat peranan IAM. Alihkan kawalan ke lapisan stack yang serendah mungkin.
Perkukuhkan jejak audit anda secara menyeluruh. Hanya merakam prom dan jawapan sahaja tidak mencukupi. Anda memerlukan panggilan alat (tool calls) dan argumen perantaraan. Adalah lebih murah untuk merekod lebih awal, tetapi mahal untuk membetulkannya kemudian.
Hadkan komunikasi ejen. Dalam sistem berbilang ejen, tetapkan had tetap bagi panggilan ejen-ke-ejen. Ini dapat mengelakkan kegagalan berantai.
Keselamatan AI pada skala besar bukanlah masalah model. Ia adalah masalah platform. Layan ejen anda dengan disiplin operasi yang sama seperti mana-mana sistem pengeluaran yang lain.
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi