Was ist Multi-Agent SRE?

SRE-Teams wollen KI nutzen. Die meisten Teams scheitern daran, dass sie KI als ein einzelnes Werkzeug betrachten. Stattdessen sollten Sie KI als ein Team von Agenten behandeln.

Ein einzelnes großes Modell auf einen Vorfall loszulassen, scheitert in der Produktion. Das hat drei Gründe.

Ein Multi-Agenten-System unterteilt den Lebenszyklus eines Vorfalls in Spezialisten.

• Detection-Agent. Überwacht Signale und identifiziert Vorfälle. • Correlation-Agent. Gruppiert zusammenhängende Alarme und entfernt Rauschen. • Investigation-Agent. Überprüft Logs und Traces, um die Ursachen (Root Causes) zu finden. • Remediation-Agent. Schlägt umkehrbare Maßnahmen vor und wartet auf Ihre Genehmigung. • Post-mortem-Agent. Erstellt Entwürfe für Zeitpläne und Maßnahmen, die Sie bearbeiten können.

Jeder Agent übernimmt eine eng gefasste Aufgabe. Sie übergeben sich gegenseitig strukturierte Daten. Diese Struktur bietet drei Vorteile.

Achten Sie auf zwei häufige Fehler.

Erstens: Vermeiden Sie „gesprächige“ Agenten. Lassen Sie die Agenten nicht über einen gemeinsamen Chatverlauf kommunizieren. Verwenden Sie typisierte Artefakte, um Endlosschleifen und veraltete Informationen zu verhindern.

Zweitens: Beschränken Sie die Berechtigungen. Geben Sie nicht jedem Agenten dieselben Zugangsdaten. Begrenzen Sie die Möglichkeiten jedes Agenten, um Fehler zu vermeiden.

Wenn Sie anfangen möchten, beginnen Sie mit einem Correlation-Agenten. Dieser ist schreibgeschützt (read-only) und birgt ein geringes Risiko. Sobald das funktioniert, fügen Sie die Investigation hinzu. Als Nächstes die Detection. Die Remediation zuletzt.

Bauen Sie langsam auf. Sie wollen ein System, dem Sie um 3 Uhr morgens vertrauen können.

Geschrieben von Dr. Samson Tanimawo

Quelle: https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj

Optionale Lern-Community: https://t.me/GyaanSetuAi