KI-Agenten haben ein Zuverlässigkeitsproblem
KI-Agenten entwickeln sich von Software, die lediglich reagiert, hin zu Software, die handelt. Sie rufen APIs auf, transferieren Geld und aktualisieren Datenbanken.
Doch zwischen Intelligenz und Zuverlässigkeit klafft eine gewaltige Lücke.
Wir konzentrieren uns auf bessere Modelle und besseres Prompting. Die Infrastruktur ignorieren wir. Diese Diskrepanz führt zu Fehlern in der realen Welt.
Stellen Sie sich vor, ein Agent bearbeitet eine Rückerstattung. Er ruft die Payment-API auf. Der API-Aufruf ist erfolgreich. Dann kommt es zu einem Serverabsturz, bevor der Agent den Erfolg protokolliert. Das System versucht die Aufgabe erneut. Der Agent ruft die API erneut auf. Der Kunde erhält eine doppelte Rückerstattung.
Niemand hat einen Bug geschrieben. Das Modell hat korrekt geschlussfolgert. Die API hat funktioniert. Der Fehler trat auf, weil die Infrastruktur unvollständig ist.
Die meisten Agenten funktionieren in Demos einwandfrei. Demos laufen in einem einzelnen Prozess. Sie führen eine Aufgabe nach der anderen aus. Sie sind keinen Abstürzen oder Nebenläufigkeit (Concurrency) ausgesetzt. Die Produktion sieht anders aus.
Wenn man Agenten in die Produktion überführt, brechen drei Dinge:
• Prozess-Unsterblichkeit: Agenten setzen voraus, dass der Prozess niemals stirbt. In der Realität fallen Hosts aus und Deployments finden statt. Wenn ein Prozess stirbt, verschwindet der In-Memory-Zustand. • Reine Tool-Aufrufe: Entwickler behandeln Tool-Aufrufe wie einfache Lesezugriffe. Aber Agenten führen Seiteneffekte aus. Geld zu transferieren oder E-Mails zu versenden, lässt sich nicht einfach rückgängig machen. • Exactly-once-Ausführung: Retries sind für die Zuverlässigkeit notwendig. Aber das Wiederholen einer In-Memory-Schleife ohne ein persistentes Log führt zu Duplikaten bei den Aktionen.
Dies ist kein Prompting-Problem. Es ist ein Problem verteilter Systeme. Um dies zu lösen, benötigen wir Durable Execution.
Zuverlässige Agenten benötigen diese fünf Säulen:
- Event Sourcing: Speichern Sie ein unveränderliches Log jeder Aktion. Das Log ist die „Source of Truth“, nicht der In-Memory-Zustand.
- Replayable Execution: Nutzen Sie das Log, um den Zustand nach einem Absturz wiederherzustellen. Spielen Sie abgeschlossene Schritte ab (Replay), anstatt sie neu auszuführen.
- Durable Queues: Verlagern Sie die Arbeit vom Arbeitsspeicher in persistente Speicher.
- Idempotency Keys: Stellen Sie sicher, dass das zweimalige Ausführen einer Aktion denselben Effekt hat wie das einmalige Ausführen. Dies verhindert Doppelzahlungen.
- Compensation Patterns: Definieren Sie Aktionen, um Schritte rückgängig zu machen, falls ein mehrstufiger Workflow auf halbem Weg fehlschlägt.
Ein besseres Modell trifft bessere Entscheidungen. Aber ein besseres Modell kann keinen Absturz beheben. Zuverlässigkeit ist eine Eigenschaft der Ausführung, nicht eine Eigenschaft der Entscheidungen.
Die Agenten, denen Sie vertrauen können, ohne menschliche Aufsicht zu handeln, werden nicht einfach nur die intelligentesten sein. Es werden diejenigen sein, die auf einer zuverlässigen Infrastruktur laufen.
Intelligenz entscheidet, was zu tun ist. Die Infrastruktur stellt sicher, dass es tatsächlich korrekt umgesetzt wird.
Quelle: https://dev.to/code_with_mwai/ai-agents-have-a-reliability-problem-nobody-is-talking-about-j40
Optionale Lerngemeinschaft: https://t.me/GyaanSetuAi