Was ich beim Betrieb von KI-Agenten in der Produktion gelernt habe

Ich baue KI-Systeme. Ich spreche mit Ingenieuren, die Code ausliefern. Es gibt eine Lücke zwischen glanzvollen Demos und echten Produktionssystemen.

Heutzutage nennt jeder alles einen Agenten. Ein Skript mit einer Schleife ist ein Agent. Ein Chatbot mit Gedächtnis ist ein Agent. Dieser Fehler führt zu schlechtem Engineering.

Teams überdimensionieren einfache Aufgaben. Sie fügen komplexe Orchestrierung zu Workflows hinzu, die nur einen einzigen guten Prompt benötigen.

Ein Agent muss ein Ziel haben, nicht nur eine Anweisung. Er muss entscheiden, was als Nächstes zu tun ist. Er muss mit Fehlern umgehen können. Er muss wissen, wann er fertig ist.

Alles andere ist lediglich ein Funktionsaufruf.

• Wenn ein Mensch jeden Schritt anleiten muss, ist es ein Chat-Interface. • Wenn ein System sich von einem fehlgeschlagenen Tool-Aufruf erholt, ist es ein Agent. • Wenn ein System ein Ziel in Unteraufgaben aufteilt, ist es ein echter Agent.

Echte Agenten-Deployments sind spezialisiert. Sie beherrschen eine Sache gut, wie etwa die Extraktion von Dokumenten oder Code-Reviews. Sie sind keine allgemeinen Reasoning-Engines.

Erfolgreiche Teams konzentrieren sich auf drei Dinge:

  • Tool-Design: Saubere Schnittstellen für das, was der Agent aufruft.
  • Fehlerbehandlung: Was passiert, wenn ein Tool nichts zurückgibt.
  • Observability: Nachverfolgung, warum ein Agent eine bestimmte Entscheidung getroffen hat.

Frameworks wie LangChain oder CrewAI ändern sich jeden Monat. Das Framework ist weniger wichtig als die zugrunde liegenden Muster.

Nutzen Sie diese Muster, um erfolgreich zu sein:

  • Planen, dann ausführen: Nutzen Sie einen Schritt für die Planung und einen separaten Schritt für die Ausführung.
  • Retrieval vom Reasoning trennen: Das Abrufen von Kontext und die Nutzung von Kontext sind unterschiedliche Aufgaben.
  • Explizite Übergaben: Nutzen Sie strukturierte Logs, wenn ein Agent die Arbeit an einen anderen übergibt.

RAG ist Standard, aber die meisten scheitern am Chunking. Wenn Sie Text schlecht aufteilen, verliert das Modell den Kontext. Wenn Ihre RAG-Ergebnisse nutzlos sind, überprüfen Sie Ihre Metadaten und Ihre Chunking-Strategie, bevor Sie dem Modell die Schuld geben.

Modelle werden besser und günstiger. Das ändert nichts an der grundlegenden technischen Herausforderung. Sie müssen Systeme bauen, die sich korrekt verhalten, auch wenn Sie nicht zusehen.

Konzentrieren Sie sich auf Governance und Observability. Die Ingenieure, auf die es ankommt, werden diejenigen sein, die Systeme bauen, denen andere vertrauen können. Das ist Systemdesign, keine Modellforschung.

Quelle: https://dev.to/aibughunter/what-i-learned-after-running-ai-agents-in-production-for-a-year-49n