Ihr Agent hat alles überprüft. Es war trotzdem falsch.

Ich betreibe einen Multi-Agenten-Workflow. Ein Modell entwirft. Eines schreibt den Code. Eines überprüft ihn. Ich gebe das Endergebnis frei.

Kürzlich sind drei Fehler durch diese Pipeline geschlüpft. Jeder Agent hat seine Aufgabe perfekt erledigt. Das System war konsistent, aber es war konsistent falsch.

Dies ist kein Intelligenzproblem. Es ist ein Problem der Abgrenzung. Ein Agent tut genau das, was man ihn im bereitgestellten Kontext verlangt. Er wird nicht von sich aus neue Dinge entdecken, die er verifizieren müsste.

Hier sind drei reale Fehler und wie man sie behebt:

  1. Erfolg, der das Scheitern verbirgt Eine ETL-Pipeline hat Daten von einer API abgerufen. Die API-Sitzung war abgelaufen. Anstatt eines Fehlercodes gab die API einen HTTP 200 zurück, mit einer Fehlermeldung innerhalb des JSON. Der Agent suchte nach einem Fehlercode, fand keinen und ging davon aus, dass die Daten gültig seien.
  • Die Lösung: Nutzen Sie semantische Validierung. Prüfen Sie nicht nur, ob ein Aufruf erfolgreich war. Prüfen Sie, ob die zurückgegebenen Daten der erwarteten Struktur und Zeilenanzahl entsprechen.
  1. Fehlende Artefakte Ein Codegenerator erzeugte C-Dateien für einen Chip. Der Reviewer bestätigte, dass der Code korrekt war. Der Generator erstellte jedoch nie die erforderliche Widget-Tabellen-Datei. Der Reviewer prüfte die vorhandenen Dateien, kontrollierte aber nicht auf fehlende Dateien.
  • Die Lösung: Überprüfen Sie die Vollständigkeit der Ausgabe. Listen Sie immer zuerst die erforderlichen Dateien auf. Bestätigen Sie, dass jede Datei existiert und nicht leer ist, bevor Sie zum nächsten Schritt übergehen.
  1. Falsche technische Behauptungen Ein SDK-Ordner gab an, für einen RISC-V-Chip zu sein, aber die Header-Kommentare besagten, er sei für einen CSKY-Prozessor. Der Agent vertraute dem Ordnernamen und den Kommentaren. Er ignorierte die tatsächlichen Maschinenbefehle, die bewiesen, dass die Behauptung falsch war.
  • Die Lösung: Nutzen Sie Ground-Truth-Verifizierung. Wenn eine Datei eine Behauptung aufstellt, testen Sie diese Behauptung mit einem Befehl. Vertrauen Sie nicht Kommentaren oder Verzeichnisnamen. Vertrauen Sie den Rohdaten.

Agenten werden das verifizieren, was man ihnen zum Verifizieren sagt. Sie werden nicht fragen: „Was könnte sonst noch falsch sein?“

Sie müssen die Grenzen definieren. Sie müssen Überprüfungspunkte an den Rändern Ihres Workflows einbauen.

Quelle: https://dev.to/antonio_zhu_e726fd856cd86/your-agent-checked-everything-it-was-still-wrong-18kd

Optionale Lern-Community: https://t.me/GyaanSetuAi