6 Bugs, die uns nur ein Live-Modell lehren konnte

Offline-Tests sind notwendig. Sie reichen jedoch nicht aus.

Ich habe den AgentOps Debugger entwickelt, um die Einhaltung von Umweltvorschriften in Peru zu überwachen. Er nutzt Qwen-plus auf der Qwen Cloud, um Datensätze zu finden und Berichte zu erstellen.

Ich habe das System nach dem „Offline-First“-Prinzip entworfen. Meine 315 Tests liefen ohne jegliche Netzwerkaufrufe. Alle Tests bestanden. Doch als ich auf das Live-Modell auf der Alibaba Cloud umstellte, brach das System zusammen.

Der Code war in Ordnung. Das Problem war der Output des Modells.

Hier sind die sechs Lehren aus Fehlern von Modellen in der realen Welt:

• Label-Mismatch Das Schema erwartete „completed“ oder „failed“. Das Modell sendete „success“ oder „done“. Der Parser lehnte nützliche Antworten aufgrund eines einzigen Wortes ab. Lösung: Verwenden Sie tolerante Preprozessoren, um Synonyme zu normalisieren.

• Degenerierte Pläne Der Planner lieferte manchmal gar nichts zurück. Die App versuchte, dieses Schweigen in eine normale Antwort umzuwandeln. Dies führte zu erfundenen Antworten. Lösung: Fügen Sie einen Plan-Interpreter hinzu. Wenn der Plan leer ist, teilen Sie dem Benutzer mit, dass das System die Planung nicht geschafft hat, anstatt zu lügen.

• Schema Drift Das Modell änderte Feldnamen wie „documentTitle“ zu „title“. Zudem mischte es englische und spanische Labels. Lösung: Verwenden Sie Alias-Mapping und retten Sie die gültigen Teile. Wenn eine Zitation fehlerhaft ist, behalten Sie die anderen vier.

• Ungepaarte Aufgaben Das Modell forderte dazu auf, einen Bericht zu speichern, noch bevor es überhaupt einen Entwurf erstellt hatte. Die Logik war sicher, aber die User Experience war gestört. Lösung: Der Code muss fehlende Schritte erkennen und diese automatisch einfügen.

• Schleifenfehler Das Modell stellte immer wieder dieselben Klärungsfragen, selbst nachdem der Benutzer geantwortet hatte. Lösung: Verlagern Sie die Entity Resolution vom Modell in den Code. Sobald ein Benutzer Daten bereitstellt, erledigt das System den Rest deterministisch.

• Falsche Ambiguität Das Modell behauptete, ein Firmenname sei mehrdeutig, obwohl er es nicht war. Dies stoppte den Workflow. Lösung: Lassen Sie das Modell Ambiguität vorschlagen, aber lassen Sie die Daten entscheiden, ob sie real ist.

Das Hauptprinzip: Lassen Sie das LLM die Erzählung übernehmen, aber überlassen Sie ihm nicht die Hoheit über strukturierte Ergebnisse.

Das Modell sollte Intent, Planung und Sprache verarbeiten. Der Code muss die Entity Resolution, Diagrammdaten und die Berichterstellung übernehmen.

Ein System wird vertrauenswürdig, wenn man jede Schlussfolgerung auf einen Datensatz zurückführen kann. Nutzen Sie das Modell für die Geschichte, aber nutzen Sie Ihren Code für die Wahrheit.

Quelle: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5

Optionale Lern-Community: https://t.me/GyaanSetuAi