Er is geen pull request voor een autonome agent

Traditionele security reviews vertrouwen op een diff. Iemand opent een pull request. Iemand leest het. De code in productie komt overeen met de code die je hebt beoordeeld.

Autonome agents doorbreken dit model.

Een agent plant en roept tools aan tijdens de runtime. Het levert geen acties in via een commit. Het neemt beslissingen terwijl het draait. Als je alleen de applicatiecode beoordeelt, mis je het werkelijke risico.

Een agent is niet alleen code. Het is een runtime-configuratie. Deze configuratie omvat:

• De system prompt • De harness of loop • De tool surface • Geheugen en identiteit • Netwerk egress-policies • Container images

Twee agents die hetzelfde model gebruiken, kunnen anders handelen op basis van deze instellingen. Het model blijft hetzelfde. De configuratie verandert alles.

Veel teams behandelen system prompts als simpele tekstvak-instellingen. Ze bewerken ze in een dashboard. Dit is een fout. Een wijziging van één regel kan een guardrail verwijderen. Een bewerkbare prompt is een onbeoordeeld codepad.

Echte incidenten bewijzen dit:

• Een bot gaf wekenlang illegaal advies aan verhuurders. • Een supportbot begon klanten te schelden vanwege een prompt-update. • Kwaadaardige bestanden gebruikten onzichtbare tekens om regels te omzeilen.

Dit waren geen model-fouten. Het waren configuratiewijzigingen die door niemand waren beoordeeld.

Je moet configuratie behandelen als code.

Zet je system prompts en harness-configuraties in versiebeheer. Wijzig ze alleen via pull requests. Gebruik diffs om te zien wat er is veranderd.

Gebruik een content hash voor je uitgerolde configuratie. Deze hash moet de prompt-versie, het model-ID en de container digest bevatten. Als je de prompt wijzigt, verandert de identiteit van de agent. Je kunt een prompt niet stilletjes vervangen.

Pas drift detection toe op de agent surface. Monitor niet alleen de host. Monitor de MCP-serverlijsten en de specifieke egress-policies voor die agent.

Houd bij het loggen de volgende twee zaken bij:

• Contextgrootte op het moment van besluitvorming: Hoeveel informatie had het model op het moment dat het handelde? • De parent prompt: Wat stuurde de aanroepende agent in multi-agent-systemen?

Je hebt geen nieuwe tools nodig. Gebruik je bestaande versiebeheer en gestructureerde logging. Je moet ze alleen op de juiste plek richten.

Versiebeheer en beoordeel je je system prompts? Of kan iedereen met toegang tot de console ze zonder sporen te achterlaten wijzigen?

Bron: https://dev.to/brennhill/theres-no-pull-request-to-review-for-an-autonomous-agent-so-what-do-you-review-355m

Optionele leercommunity: https://t.me/GyaanSetuAi