Guardrails voor Enterprise AI Agents
De meeste adviezen over AI-guardrails klinken als een verkooppraatje. Ze richten zich op flitsende diagrammen en checklists.
Echte veiligheid in productie is minder glamoureus. Het leunt op zaken die al lang voor LLM's bestonden.
Ik heb twee jaar aan AI-agents gebouwd voor een Fortune 100-bedrijf. Deze agents verwerken CI/CD-fouten, Kubernetes-incidenten en infrastructuurdocumentatie.
Hier is de gelaagde stack die we gebruiken om ze veilig te houden.
Identiteit op de grens van de agent. Elke agent gebruikt een workload-identiteit. Er worden nooit gedeelde inloggegevens gebruikt. De IAM-scope is je beveiligingsplafond. Als de agent geen toegang tot de database nodig heeft, mag de IAM-rol die ook niet hebben. Dit is je belangrijkste controlemechanisme.
Tool allow-lists. Het platform bepaalt welke tools een agent kan zien. Een agent voor code-zoeken zou geen e-mailtool moeten hebben. We gebruiken hiervoor statische configuraties. We gebruiken nooit dynamische tool-registratie.
Netwerk egress-controles. Agents bereiken alleen allowgeliste endpoints. We gebruiken DNS-filtering en een egress-proxy. Dit voorkomt dat hallucinaties van het model leiden tot verkeerde URL's.
Isolatie van secrets. Agents zien nooit ruwe secrets. We gebruiken kortstondige sessietokens die tijdens tool-aanroepen worden geïnjecteerd. Zet nooit secrets in een prompt. Alles in een prompt kan worden gelogd of afgespeeld.
Volledige audit trails. Je moet elke modelaanroep en elke tool-aanroep loggen. Dit omvat inputs, outputs, tool-argumenten en de identiteit van de gebruiker. Dit heb je nodig om te begrijpen wat er misging tijdens een incident.
Menselijke goedkeuring. Voor elke actie die een systeem van record wijzigt, moet het platform pauzeren. Een mens moet de actie goedkeuren. Dit is je vangnet.
Vermijd deze veelvoorkomende fouten:
Instructies op prompt-niveau. Een model vertellen "doe nooit X" is geen beveiliging. Een gebruiker kan het model misleiden. Verplaats de controle naar de IAM- of tool-laag.
Generieke PII-filters. Deze hebben een hoge foutmarge. Het is beter om de toegang tot gegevens via IAM te beperken, zodat de agent nooit gevoelige informatie ziet.
Guardrail-modellen. Het gebruik van een tweede LLM om de eerste te beoordelen, zorgt voor extra latentie. Het is geen echte beveiligingscontrole. Het is slechts een model-ensemble.
Lessen die ik op de harde manier heb geleerd:
Los IAM op voordat je aan prompts werkt. Ik heb tijd verspild aan het finetunen van prompts, terwijl ik IAM-rollen had moeten aanscherpen. Verplaats controles zo laag mogelijk in de stack.
Bouw je audit trail ruim op. Het vastleggen van alleen de prompt en het antwoord is niet voldoende. Je hebt de tussenliggende tool-aanroepen en argumenten nodig. Het is goedkoop om vroegtijdig te loggen, maar duur om het later te repareren.
Beperk de communicatie tussen agents. Stel in multi-agent-systemen een harde limiet in voor agent-tot-agent-aanroepen. Dit voorkomt cascadefouten.
AI-veiligheid op schaal is geen modelprobleem. Het is een platformprobleem. Behandel je agents met dezelfde operationele discipline als elk ander productiesysteem.
Optionele leercommunity: https://t.me/GyaanSetuAi