Quản lý sự cố AI sẽ thất bại nếu thiếu một bản ghi dùng chung
Các tác nhân AI (AI agents) đang bước chân vào lĩnh vực ứng phó sự cố.
Các công ty như LangChain, PagerDuty và New Relic đang xây dựng các tác nhân SRE. Những công cụ này có thể đọc trace, truy xuất log và soạn thảo các bản cập nhật. Chúng hoạt động nhanh chóng và cung cấp ngữ cảnh tuyệt vời.
Nhưng có một cái bẫy.
Nhiều đội ngũ coi ngữ cảnh AI như một bản nháp riêng tư. Họ sử dụng AI cho công việc giảm thiểu thiệt hại, chẳng hạn như tìm nguyên nhân gốc rễ, nhưng lại quên mất công việc điều phối.
Quản lý sự cố không chỉ là tìm ra nguyên nhân. Đó là về sự điều phối. Đó là việc giúp mọi người thống nhất về:
- Điều gì đã xảy ra.
- Điều gì đã thay đổi.
- Những gì bạn đã loại trừ.
- Ai là người chịu trách nhiệm cho bước tiếp theo.
- Những gì doanh nghiệp cần được biết.
Nếu thông tin này chỉ nằm trong một cuộc trò chuyện riêng tư hoặc trong ghi chú của một tác nhân, quy trình sẽ thất bại.
Một bản ghi sự cố AI hữu ích không phải là một nhật ký chat. Nó là một đối tượng vận hành có cấu trúc. Nó phải bao gồm:
- Tác nhân kích hoạt (cảnh báo, dịch vụ, mức độ nghiêm trọng).
- Bằng chứng (trace, log, metrics, các đợt deploy gần đây).
- Các giả thuyết (những gì bạn nghĩ đang xảy ra và tại sao).
- Các lý thuyết bị bác bỏ (những gì bạn đã chứng minh không phải là nguyên nhân).
- Các quyết định và phê duyệt (tại sao bạn chọn roll back hoặc chờ đợi).
Cấu trúc này giúp ngăn chặn một lỗi phổ biến của AI. Một tác nhân có thể trở thành một "hố trọng lực" (gravity well). Nó tìm thấy một nguyên nhân có vẻ hợp lý và bị mắc kẹt vào đó. Sau đó, nó diễn giải tất cả dữ liệu mới để ủng hộ cho duy nhất lý thuyết đó.
Một bản ghi có cấu trúc và dùng chung sẽ buộc đội ngũ phải xem xét các bằng chứng phản bác. Nó giúp kiểm soát sự thiên kiến của tác nhân.
Những người ứng phó không cần thêm sự nhiễu loạn. Họ cần một trạng thái dùng chung (shared state). Khi một người mới tham gia vào sự cố, họ không nên mất năm phút để lục lọi trong Slack. Họ cần thấy ngay giả thuyết hiện tại, bằng chứng và các hành động đang chờ xử lý.
Mục tiêu không phải là một người ứng phó tự động với một bản demo hào nhoáng. Mục tiêu là một công cụ để lại kiến thức tổ chức (institutional knowledge).
Đừng tìm kiếm mô hình thông minh nhất nữa. Hãy bắt đầu xây dựng một bản ghi có cấu trúc.
- Định nghĩa các trường thông tin rõ ràng cho sự cố.
- Cho phép các tác nhân đọc và ghi vào bản ghi này một cách an toàn.
- Đảm bảo bản ghi ghi lại các quyết định, chứ không chỉ là dữ liệu.
- Sử dụng bản ghi để biến sự hỗn loạn của sự cố thành kiến thức có thể tái sử dụng.
Công cụ AI tốt nhất là công cụ giúp đội ngũ con người phối hợp như một thể thống nhất.
Optional learning community: https://t.me/GyaanSetuAi
