Czym jest Multi-Agent SRE?
Zespoły SRE chcą korzystać z AI. Większość zespołów ponosi porażkę, ponieważ traktuje AI jako pojedyncze narzędzie. Zamiast tego powinieneś traktować AI jako zespół agentów.
Próba rozwiązania incydentu za pomocą jednego dużego modelu kończy się niepowodzeniem w środowisku produkcyjnym. Dzieje się tak z trzech powodów.
- Limity kontekstu. Realne incydenty zawierają zbyt wiele danych dla jednego promptu.
- Brak specjalizacji. Wykrywanie, triaż i naprawa to różne zadania. Jeden prompt nie jest w stanie dobrze wykonać wszystkich trzech.
- Problemy z zaufaniem. Nie można audytować pojedynczego, nieprzejrzystego modelu. Nie można go wstrzymać ani przekazać części jego pracy człowiekowi.
System wieloagentowy dzieli cykl życia incydentu na specjalistów.
• Agent wykrywania (Detection agent). Monitoruje sygnały i identyfikuje incydenty. • Agent korelacji (Correlation agent). Grupuje powiązane alerty i eliminuje szum. • Agent dochodzeniowy (Investigation agent). Sprawdza logi i ślady (traces), aby znaleźć przyczyny źródłowe. • Agent naprawczy (Remediation agent). Proponuje odwracalne działania i czeka na Twoją akceptację. • Agent post-mortem. Przygotowuje szkice osi czasu i listy zadań do Twojej edycji.
Każdy agent odpowiada za jedno wąskie zadanie. Przekazują sobie nawzajem ustrukturyzowane dane. Ta struktura zapewnia trzy korzyści.
- Ograniczony kontekst (Bounded context). Agenci widzą tylko te dane, których potrzebują. Dzięki temu utrzymuje się wysoką jakość.
- Przejrzyste punkty styku (Inspectable seams). Możesz dokładnie zobaczyć, co zdecydował dany agent.
- Przejęcie przez człowieka (Human takeover). Możesz wkroczyć w dowolnym momencie i kontynuować pracę.
Uważaj na dwa powszechne błędy.
Po pierwsze, unikaj „gadatliwych” agentów. Nie pozwól, aby agenci komunikowali się poprzez wspólną historię czatu. Używaj typowanych artefaktów, aby zapobiegać pętlom i nieaktualnym informacjom.
Po drugie, ogranicz uprawnienia. Nie nadawaj każdemu agentowi tych samych poświadczeń. Ogranicz zakres działań każdego agenta, aby zapobiec błędom.
Jeśli chcesz zacząć, zacznij od agenta korelacji. Jest on w trybie tylko do odczytu i wiąże się z niskim ryzykiem. Gdy to zadziała, dodaj agenta dochodzeniowego. Następnie dodaj agenta wykrywania. Agent naprawczy powinna być ostatni.
Buduj powoli. Chcesz mieć system, któremu możesz zaufać o 3 nad ranem.
Autor: Dr Samson Tanimawo
Źródło: https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj
Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi