Multi-Agent SRE là gì?
Các đội ngũ SRE muốn sử dụng AI. Hầu hết các đội ngũ đều thất bại vì họ coi AI như một công cụ đơn lẻ. Thay vào đó, bạn nên coi AI như một đội ngũ gồm các tác nhân (agents).
Việc sử dụng một mô hình lớn duy nhất để xử lý một sự cố sẽ thất bại trong môi trường production. Điều này thất bại vì ba lý do.
- Giới hạn ngữ cảnh. Các sự cố thực tế có quá nhiều dữ liệu đối với một prompt duy nhất.
- Thiếu sự chuyên môn hóa. Phát hiện (detection), phân loại (triage) và khắc phục (remediation) là những công việc khác nhau. Một prompt không thể thực hiện tốt cả ba việc này.
- Vấn đề về sự tin cậy. Bạn không thể kiểm chứng một mô hình đơn lẻ thiếu minh bạch. Bạn không thể tạm dừng nó hoặc bàn giao một phần công việc của nó cho con người.
Một hệ thống đa tác nhân (multi-agent system) chia vòng đời của sự cố thành các chuyên gia riêng biệt.
• Tác nhân phát hiện (Detection agent). Theo dõi các tín hiệu và xác định các sự cố. • Tác nhân tương quan (Correlation agent). Nhóm các cảnh báo liên quan và loại bỏ nhiễu. • Tác nhân điều tra (Investigation agent). Kiểm tra logs và traces để tìm nguyên nhân gốc rễ. • Tác nhân khắc phục (Remediation agent). Đề xuất các hành động có thể đảo ngược và chờ sự phê duyệt của bạn. • Tác nhân hậu kiểm (Post-mortem agent). Soạn thảo dòng thời gian và các hạng mục cần thực hiện để bạn chỉnh sửa.
Mỗi tác nhân đảm nhận một nhiệm vụ hẹp. Chúng truyền dữ liệu có cấu trúc cho nhau. Cấu trúc này mang lại ba lợi ích.
- Ngữ cảnh giới hạn (Bounded context). Các tác nhân chỉ thấy dữ liệu chúng cần. Điều này giúp duy trì chất lượng cao.
- Các điểm nối có thể kiểm tra (Inspectable seams). Bạn có thể thấy chính xác những gì bất kỳ tác nhân nào đã quyết định.
- Con người tiếp quản (Human takeover). Bạn có thể can thiệp tại bất kỳ thời điểm nào và tiếp tục công việc.
Hãy cẩn thận với hai sai lầm phổ biến.
Thứ nhất, tránh các tác nhân "nhiều lời" (chatty agents). Đừng để các tác nhân giao tiếp thông qua một lịch sử chat chung. Hãy sử dụng các tạo tác có kiểu dữ liệu (typed artifacts) để ngăn chặn các vòng lặp và thông tin lỗi thời.
Thứ hai, giới hạn quyền hạn. Đừng cấp cùng một thông tin xác thực cho mọi tác nhân. Hãy giới hạn những gì mỗi tác nhân có thể làm để ngăn ngừa lỗi.
Nếu bạn muốn bắt đầu, hãy bắt đầu với một tác nhân tương quan (correlation agent). Nó chỉ có quyền đọc và có rủi ro thấp. Khi việc đó đã hoạt động ổn định, hãy thêm tác nhân điều tra. Tiếp theo là tác nhân phát hiện. Cuối cùng mới là tác nhân khắc phục.
Hãy xây dựng chậm rãi. Bạn cần một hệ thống mà bạn có thể tin tưởng vào lúc 3 giờ sáng.
Viết bởi Dr. Samson Tanimawo
Nguồn: https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi