Alle reden über Prompts. Die Schleife ist der Punkt, an dem Agenten tatsächlich scheitern
Prompt Engineering bekommt die ganze Aufmerksamkeit. Die Leute teilen Prompts und fühlen sich schlau. Aber in den agentischen Systemen, die ich baue, brechen nicht die Prompts. Die Schleife bricht.
Ein Agent ist nicht nur ein einzelner Prompt und eine Antwort. Er ist eine Schleife.
- Zustand beobachten.
- Eine Aktion ausführen.
- Das Ergebnis bewerten.
- Entscheiden, ob fortgefahren oder gestoppt wird.
Wenn einer dieser Schritte fehlschlägt, scheitert der Agent. Ich habe 12 Modelle in 1.412 Durchläufen analysiert, um dies zu untersuchen. Hier erfährst du, wie Schleifen scheitern und wie man sie repariert.
Häufige Fehler in der Schleife:
- Token-Spiralen: Der Agent wiederholt sich selbst und verbraucht zu viele Token.
- Blinde Flecken: Der Agent kann seine Umgebung nicht wahrnehmen und wiederholt denselben Fehler.
- Falscher Erfolg: Der Agent liefert eine falsche Antwort, hält sie aber für richtig.
- Sackgassen: Der Agent findet einen Fehler, kann diese Daten aber nicht nutzen, um sich zu verbessern.
Ein besserer Prompt kann diese Probleme nicht lösen. Du brauchst Loop Engineering.
Vier Designprinzipien für bessere Schleifen:
- Begrenze die Schleife: Setze ein hartes Limit für Iterationen und Token. Wenn der Agent an eine Grenze stößt, muss er stoppen und um Hilfe bitten.
- Mache die Umgebung lesbar: Stelle sicher, dass der Beobachtungsschritt dem Agenten alle Fakten liefert. Wenn ein Agent eine fehlerhafte Aktion wiederholt, fehlen ihm die richtigen Informationen.
- Trenne den Akteur vom Evaluator: Lass nicht dasselbe Modell seine eigene Arbeit überprüfen. Nutze ein anderes Modell oder eine regelbasierte Prüfung, um die Ausgabe zu beurteilen.
- Schließe die Schleife: Nutze Fehler, um echte Verbesserungen voranzutreiben. Wenn eine Schleife fehlschlägt, füge einen Regressionstest hinzu, damit dies nie wieder passiert.
Ich habe einen Support-Agenten namens RelayOps nach diesen Regeln entwickelt. Wir haben einen unabhängigen „Judge“ verwendet, um den Agenten zu bewerten.
Einmal zitierte der Agent den richtigen Artikel, konnte aber die eigentliche Frage nicht beantworten. Eine einfache regelbasierte Prüfung hätte ihn durchgewinkt. Aber unser unabhängiger Evaluator hat den Fehler erkannt. Wir haben dieses Scheitern genutzt, um das System zu korrigieren, und einen Test hinzugefügt, um dies künftig zu verhindern.
Der Agent musste nicht intelligenter werden. Die Schleife musste besser konzipiert sein.
Konzentriere dich nicht nur auf Prompts. Konzentriere dich auf die Struktur.
Welchen Fehler in einer Schleife hast du schon erlebt? Eine Token-Spirale, einen blinden Fleck oder einen Agenten, der mit voller Überzeugung falsch lag?
Optionale Lern-Community: https://t.me/GyaanSetuAi