Es gibt keinen Pull Request für einen autonomen Agenten
Traditionelle Sicherheitsüberprüfungen verlassen sich auf einen Diff. Jemand öffnet einen Pull Request. Jemand liest ihn. Der Code in der Produktion entspricht dem Code, den Sie überprüft haben.
Autonome Agenten sprengen dieses Modell.
Ein Agent plant und ruft Tools zur Laufzeit auf. Er liefert Aktionen nicht in einem Commit aus. Er trifft Entscheidungen während des Betriebs. Wenn Sie nur den Anwendungscode überprüfen, übersehen Sie das eigentliche Risiko.
Ein Agent ist nicht nur Code. Er ist eine Laufzeitkonfiguration. Diese Konfiguration umfasst:
• Den System-Prompt • Das Harness oder die Schleife • Die Tool-Oberfläche • Gedächtnis und Identität • Netzwerk-Egress-Richtlinien • Container-Images
Zwei Agenten, die dasselbe Modell verwenden, können sich basierend auf diesen Einstellungen unterschiedlich verhalten. Das Modell bleibt gleich. Die Konfiguration ändert alles.
Viele Teams behandeln System-Prompts wie einfache Texteingabefelder. Sie bearbeiten sie in einem Dashboard. Das ist ein Fehler. Eine Änderung von nur einer Zeile kann eine Guardrail entfernen. Ein editierbarer Prompt ist ein nicht überprüfter Code-Pfad.
Echte Vorfälle beweisen dies:
• Ein Bot gab Vermietern über Wochen hinweg illegale Ratschläge. • Ein Support-Bot begann aufgrund eines Prompt-Updates, Kunden zu beschimpfen. • Bösartige Dateien nutzten unsichtbare Zeichen, um Regeln zu umgehen.
Dies waren keine Modellfehler. Es waren Konfigurationsänderungen, die niemand überprüft hat.
Sie müssen Konfiguration wie Code behandeln.
Legen Sie Ihre System-Prompts und Harness-Konfigurationen in die Versionsverwaltung. Ändern Sie diese nur über Pull Requests. Nutzen Sie Diffs, um zu sehen, was sich geändert hat.
Verwenden Sie einen Content-Hash für Ihre bereitgestellte Konfiguration. Dieser Hash sollte die Prompt-Version, die Modell-ID und den Container-Digest enthalten. Wenn Sie den Prompt ändern, ändert sich die Identität des Agenten. Sie können einen Prompt nicht stillschweigend austauschen.
Wenden Sie Drift-Erkennung auf die Agent-Oberfläche an. Überwachen Sie nicht nur den Host. Überwachen Sie die MCP-Serverlisten und die spezifischen Egress-Richtlinien für diesen Agenten.
Verfolgen Sie beim Logging diese zwei Dinge:
• Kontextgröße zum Entscheidungszeitpunkt: Wie viele Informationen hatte das Modell, als es handelte? • Der Parent-Prompt: Was hat der aufrufende Agent in Multi-Agenten-Systemen gesendet?
Sie benötigen keine neuen Tools. Nutzen Sie Ihre bestehende Versionsverwaltung und Ihr strukturiertes Logging. Sie müssen sie nur an die richtige Stelle lenken.
Versionieren und überprüfen Sie Ihre System-Prompts? Oder kann jeder mit Konsolenzugriff sie spurlos ändern?
Optionale Lern-Community: https://t.me/GyaanSetuAi
