Was ist Multi-Agent SRE?
SRE-Teams wollen KI nutzen. Die meisten Teams scheitern daran, dass sie KI als ein einzelnes Werkzeug betrachten. Stattdessen sollten Sie KI als ein Team von Agenten behandeln.
Ein einzelnes großes Modell auf einen Vorfall loszulassen, scheitert in der Produktion. Das hat drei Gründe.
- Kontextbeschränkungen. Echte Vorfälle enthalten zu viele Daten für einen einzigen Prompt.
- Mangelnde Spezialisierung. Detection, Triage und Remediation sind unterschiedliche Aufgaben. Ein einziger Prompt kann nicht alle drei gleichermaßen gut bewältigen.
- Vertrauensprobleme. Man kann ein einzelnes, undurchsichtiges Modell nicht auditieren. Man kann es nicht pausieren oder Teile seiner Arbeit an einen Menschen übergeben.
Ein Multi-Agenten-System unterteilt den Lebenszyklus eines Vorfalls in Spezialisten.
• Detection-Agent. Überwacht Signale und identifiziert Vorfälle. • Correlation-Agent. Gruppiert zusammenhängende Alarme und entfernt Rauschen. • Investigation-Agent. Überprüft Logs und Traces, um die Ursachen (Root Causes) zu finden. • Remediation-Agent. Schlägt umkehrbare Maßnahmen vor und wartet auf Ihre Genehmigung. • Post-mortem-Agent. Erstellt Entwürfe für Zeitpläne und Maßnahmen, die Sie bearbeiten können.
Jeder Agent übernimmt eine eng gefasste Aufgabe. Sie übergeben sich gegenseitig strukturierte Daten. Diese Struktur bietet drei Vorteile.
- Begrenzter Kontext (Bounded Context). Agenten sehen nur die Daten, die sie benötigen. Dies hält die Qualität hoch.
- Überprüfbare Schnittstellen (Inspectable Seams). Sie können genau sehen, was ein Agent entschieden hat.
- Menschliche Übernahme (Human Takeover). Sie können an jedem beliebigen Punkt eingreifen und die Arbeit fortsetzen.
Achten Sie auf zwei häufige Fehler.
Erstens: Vermeiden Sie „gesprächige“ Agenten. Lassen Sie die Agenten nicht über einen gemeinsamen Chatverlauf kommunizieren. Verwenden Sie typisierte Artefakte, um Endlosschleifen und veraltete Informationen zu verhindern.
Zweitens: Beschränken Sie die Berechtigungen. Geben Sie nicht jedem Agenten dieselben Zugangsdaten. Begrenzen Sie die Möglichkeiten jedes Agenten, um Fehler zu vermeiden.
Wenn Sie anfangen möchten, beginnen Sie mit einem Correlation-Agenten. Dieser ist schreibgeschützt (read-only) und birgt ein geringes Risiko. Sobald das funktioniert, fügen Sie die Investigation hinzu. Als Nächstes die Detection. Die Remediation zuletzt.
Bauen Sie langsam auf. Sie wollen ein System, dem Sie um 3 Uhr morgens vertrauen können.
Geschrieben von Dr. Samson Tanimawo
Quelle: https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj
Optionale Lern-Community: https://t.me/GyaanSetuAi