Buổi Phân Tích Sự Cố Không Đổ Lỗi Nhưng Vẫn Đang Đổ Lỗi Cho Bạn
Bạn ngồi trong một cuộc họp. Slide ghi rằng đây là một buổi phân tích sự cố không đổ lỗi (blameless postmortem). Người điều phối bảo bạn hãy tập trung vào hệ thống thay vì con người. Bạn gật đầu. Nhưng bạn vẫn cảm thấy như mình đang bị trừng phạt.
Các công ty sử dụng ngôn ngữ của sự an toàn tâm lý. Không ai hỏi ai đã làm hỏng hệ thống. Họ hỏi điều gì đã cho phép thất bại đó xảy ra. Nghe thì có vẻ hay. Nhưng trên thực tế, nó thường mang lại cảm giác như đang bị giám sát.
Dòng thời gian sự cố được đưa vào một thư mục dùng chung. Một câu hỏi xuất hiện trong luồng thảo luận: Bạn có xác nhận cảnh báo trước khi nó leo thang không? Đây trông có vẻ là một câu hỏi về sự thật. Nhưng thực chất, đó là một mốc thời gian gắn liền với tên của bạn. Quản lý của bạn sử dụng dữ liệu này cho kỳ đánh giá định kỳ hàng quý của bạn.
Hệ thống không chỉ trích trực tiếp. Nó chỉ ghi lại ai đã chạm vào cái gì và khi nào. Nó tạo ra một vết tích hồ sơ về những sai lầm của bạn.
Các nhóm nghĩ rằng những buổi phân tích sự cố kỹ lưỡng sẽ ngăn chặn các lỗi trong tương lai. Họ tin rằng họ cần biết ai đã đăng nhập và ai đã merge code. Điều này tạo ra một khuôn mẫu. Nếu tên bạn xuất hiện trong nhiều dòng thời gian, ban lãnh đạo sẽ coi bạn là một rủi ro. Họ không thấy bạn là người đã sửa lỗi hay thức khuya để hỗ trợ.
Những kỹ sư thông minh bắt đầu tự bảo vệ mình. Họ tránh là người cuối cùng chạm vào một thay đổi cấu hình (config change). Họ tránh vai trò người chỉ huy sự cố (incident commander). Họ viết các hạng mục hành động mơ hồ để không ai phải chịu trách nhiệm cá nhân. Đây không phải là sự lười biếng. Đó là sự sinh tồn.
Khi văn hóa không đổ lỗi thất bại, các kỹ sư ngừng tình nguyện trực on-call. Họ ngừng chịu trách nhiệm khắc phục lỗi. Họ ngừng quan tâm đến hệ thống và bắt đầu quan tâm đến danh tiếng của mình.
Bạn có thể thấy vấn đề khi ban lãnh đạo coi việc một kỹ sư cấp cao từ chối trực on-call là vấn đề về động lực. Thực chất, đó là vấn đề về niềm tin. Bạn sẽ thấy điều đó khi các hạng mục hành động tập trung vào việc đào tạo (coaching) bạn thay vì xây dựng hệ thống tự động hóa.
Một văn hóa không đổ lỗi thực sự chỉ làm một việc: nó từ chối biến dòng thời gian sự cố thành các bản đánh giá hiệu suất.
Văn hóa không đổ lỗi thực sự có nghĩa là: • Các buổi phân tích sự cố tôn vinh người đã có mặt để khắc phục đống hỗn độn. • Các hạng mục hành động tập trung vào tự động hóa và các bộ ngắt mạch (circuit breakers). • Phản hồi tập trung vào công cụ, không phải vào việc đào tạo cá nhân.
Cho đến lúc đó, từ "không đổ lỗi" chỉ là một chiếc mặt nạ cho một thứ gì đó khác.
Source: https://dev.to/omieee_24/the-blameless-postmortem-that-still-blames-you-3bdc