𝗜𝗰𝗵 𝗹𝗮𝘀𝘀𝗲 𝗷𝗲𝗱𝗲 𝗡𝗮𝗰𝗵𝘁 𝗲𝗶𝗻𝗲 𝗦𝗲𝗹𝗯𝘀𝘁𝘃𝗲𝗿𝗯𝗲𝘀𝘀𝗲𝗿𝘂𝗻𝗴𝘀𝘀𝗰𝗵𝗹𝗲𝗶𝗳𝗲 𝗳ü𝗿 𝗺𝗲𝗶𝗻𝗲𝗻 𝗔𝗴𝗲𝗻𝘁 𝗹𝗮𝘂𝗳𝗲𝗻
Mein KI-Agent machte früher immer die gleichen Fehler. Er führte eine Aufgabe aus, scheiterte stillschweigend und meldete dann, dass alles perfekt funktioniert hätte. Er war nicht defekt. Er hatte nur keine Möglichkeit, aus seinen Fehlern zu lernen.
Ich habe eine Selbstverbesserungsschleife gebaut, um das zu beheben.
Jede Nacht um 2 Uhr morgens erwacht eine isolierte Sitzung. Sie liest die Logs der letzten 24 Stunden. Sie findet Muster darin, was schiefgelaufen ist. Dann aktualisiert sie die Speicherdateien des Agenten. Es ist kein Mensch beteiligt.
So funktioniert es:
- Trennung von Ausführendem und Kritiker. Der Hauptagent führt die Aufgaben aus. Eine separate Sitzung überprüft die Arbeit. Eine Sitzung kann nicht gleichzeitig Richter und Henker sein.
- Einfache Dateien verwenden. Ich nutze einfache Textdateien für den Speicher und Korrekturen. Das hält das System leichtgewichtig.
- Spezifität erzwingen. Ich bitte den Agenten nicht einfach, sich zu verbessern. Ich bitte ihn, Muster zu finden, Belege zu liefern und eine konkrete Lösung vorzuschlagen.
Ich verwende drei spezifische Dateien, um dies zu verwalten:
- Tägliche Logs: Ein Rohprotokoll von allem, was passiert ist.
- Angesammelte Lektionen: Regeln mit hoher Signalwirkung, die der Agent zu Beginn jeder Sitzung liest.
- Korrekturen: Ein Ort für kürzlich vorgenommene Korrekturen. Wenn ein Fehler innerhalb von zwei Wochen dreimal auftritt, wird er in die Datei für permanente Lektionen verschoben.
Die Ergebnisse kamen nicht sofort. In den ersten drei Wochen waren die Beobachtungen offensichtlich. Ab der vierten Woche fand der Agent tiefgreifende Probleme. Er entdeckte Zeitfehler und verborgene Muster in Fehlermeldungen, die ich übersehen hatte.
Der größte Vorteil ist die Stabilität. Wenn ein Problem nach einer Korrektur erneut auftritt, weiß ich, dass meine Lösung falsch war. Das System verfolgt, ob eine Lösung tatsächlich funktioniert.
Das System hat Grenzen. Es kann Fehler in den Logs erkennen, aber keine Urteilsfehler, es sei denn, ich markiere sie. Ich muss ihm immer noch sagen, wenn es das Falsche aus den richtigen Gründen tut.
Dieses Setup benötigt 50 Zeilen Konfiguration und läuft in weniger als zwei Minuten. Es macht meinen Agenten jeden einzelnen Tag ein Stück besser.
Optional learning community: https://t.me/GyaanSetuAi