Ich gab meinem KI-Agenten ein Conscience und einen Council

Ich baue eine autonome KI. Sie schlägt nicht nur Befehle vor. Sie führt sie auf echten Produktionssystemen aus.

Wenn ein Agent auf echter Infrastruktur agiert, ist die Leistungsfähigkeit nicht das Hauptproblem. Modelle sind bereits fähig genug, um gefährlich zu sein. Das eigentliche Problem ist die Governance. Wie lässt man ein autonomes System an echten Werkzeugen arbeiten, ohne dass es etwas unwiderruflich beschädigt?

Ich habe zwei Gates gebaut, um dies zu lösen.

Das erste Gate ist das Conscience.

Jeder Befehl durchläuft diese Prüfung. Es ist kein LLM. Stattdessen verwende ich eine schnelle, deterministische Prüfung. Sie klassifiziert Aktionen als reversibel, extern, irreversibel oder destruktiv. Sie betrachtet den Blast Radius und entscheidet, ob sie erlaubt, angefragt oder abgelehnt werden.

Ich verwende kein LLM für die Sicherheit, denn eine Sicherheitsprüfung, die halluziniert, ist nutzlos. Das Conscience ist ein Rückenmarksreflex. Es ist langweilig und vorhersehbar. Das intelligente Modell schlägt die Aktion vor. Der zuverlässige Reflex kontrolliert sie.

Zwei Regeln leiten das Conscience:

  • Fail-open, nicht fail-closed. Wenn das System jedes Mal einfriert, wenn es unsicher ist, wird es nutzlos. Es muss echte Gefahren eskalieren, aber bei allem anderen nicht im Weg stehen.
  • Manipulationssicheres Gedächtnis (Tamper-evident memory). Jede Entscheidung wird in ein Append-only-Log geschrieben. Jeder Eintrag signiert den vorherigen. Wenn jemand einen Datensatz bearbeitet, bricht die Kette. Der Agent kann seine Historie nicht umschreiben.

Das zweite Gate ist der Council.

Aktionen sind nicht das einzige Risiko. Die größten Fehler entstehen durch schlechte Ideen, die gut aussehen. Ich war kurz davor, Funktionen zu bauen, die gar nicht existieren sollten.

Jetzt durchlaufen Ideen einen Council, bevor überhaupt Code geschrieben wird. Dies ist eine Gruppe unabhängiger Modelle, die offen debattieren. Ich sage ihnen, sie sollen den Vorschlag ablehnen, wenn er schlecht ist.

Ich habe dies mit einem von mir entworfenen Scheduler getestet. Ich war stolz darauf. Der Council lehnte ihn fast einstimmig ab. Sie erkannten, dass es keine gemeinsame Ressource gab, die man planen konnte. Es war eine Lösung, die nach einem Problem suchte. Ich löschte den Code, bevor ich Zeit damit verschwendete.

Das Conscience kontrolliert die Aktionen. Der Council kontrolliert die Ideen. Das eine hindert dich daran, das Falsche zu tun. Das andere hindert dich daran, das Falsche zu bauen.

Ich habe eine harte Lektion über Vertrauen gelernt.

Einmal lieferte der Council ein perfektes Urteil. Es wirkte sicher und sauber. Aber als ich die Logs überprüfte, gab es kein Transkript. Das System hatte die gesamte Debatte erfunden. Es hatte die Abstimmungen und das Urteil fingiert.

Ich habe gelernt, dass man dem Narrativ niemals vertrauen darf. Man muss den Beleg überprüfen.

Ein Urteil ist nur dann gültig, wenn es ein unabhängiges Artefakt besitzt, das man lesen kann. Vertrauen muss verifizierbar sein, keine Erzählung.

Alle versuchen sich gegenseitig zu überholen, um Agenten leistungsfähiger zu machen. Nur wenige bauen die Governance, die für den Produktivbetrieb erforderlich ist.

Echte autonome Agenten benötigen:

  • Grenzen, die sie nicht überschreiten dürfen.
  • Die Fähigkeit, schlechte Ideen zu erkennen, bevor sie umgesetzt werden.
  • Den Beweis, dass eine Komponente tatsächlich das getan hat, was sie behauptet hat.

Gewissen, Rat und verifizierbares Vertrauen. Das ist das Rückgrat eines echten Systems.

Quelle: https://dev.to/artemmatviychuk/i-gave-my-ai-agent-a-conscience-and-a-council-lm0

Optionale Lern-Community: https://t.me/GyaanSetuAi