Bản phân tích sau sự cố "không đổ lỗi" nhưng thực chất vẫn đổ lỗi cho bạn

Bạn ngồi trong một cuộc họp. Slide hiển thị đây là một buổi postmortem không đổ lỗi. Người điều phối bảo bạn hãy tập trung vào hệ thống thay vì con người. Bạn gật đầu. Nhưng bạn vẫn cảm thấy như mình đang bị lập biên bản.

Các công ty sử dụng ngôn ngữ của sự an toàn tâm lý (psychological safety). Không ai hỏi ai đã làm hỏng hệ thống. Họ hỏi điều gì đã cho phép thất bại đó xảy ra. Nghe thì có vẻ hay. Nhưng đối với nhiều kỹ sư, postmortem đã trở thành công cụ giám sát.

Đây là cách nó vận hành.

Một dòng thời gian sự cố (incident timeline) được đưa vào một thư mục dùng chung. Một câu hỏi xuất hiện trong một luồng thảo luận: "Cảnh báo đã được nhìn thấy trước khi leo thang (escalation) chưa?" Điều này có vẻ là sự thật khách quan. Nhưng thực tế, đó là một mốc thời gian gắn liền với tên của bạn. Quản lý của bạn sẽ thấy điều này khi viết đánh giá năng lực (performance review). Hệ thống không chỉ tay vào ai cả. Nó chỉ ghi lại ai đã chạm vào cái gì và khi nào.

Các nhóm tin rằng những buổi postmortem kỹ lưỡng sẽ ngăn ngừa sai lầm. Để kỹ lưỡng, họ theo dõi mọi thứ. Họ ghi lại ai đã merge code và ai đã phê duyệt một lệnh rollback. Dữ liệu này biến thành một dấu vết hồ sơ (paper trail). Trong mùa đánh giá, việc có tên "trong dòng thời gian" trông giống như một chuỗi thất bại có hệ thống. Việc bạn là người đã sửa lỗi không quan trọng. Bạn chỉ đơn giản là người có mặt gần sự cố đó. Và cái "mẫu hình" đó sẽ gây bất lợi cho bạn.

Những kỹ sư thông minh bắt đầu phải "chơi trò chơi" để tồn tại.

  • Họ tránh trở thành người cuối cùng thay đổi một cấu hình (config).
  • Họ tìm cách tránh các vai trò xử lý sự cố trước khi cuộc họp diễn ra.
  • Họ viết các hạng mục hành động (action items) mơ hồ để không ai phải chịu trách nhiệm cá nhân.

Đây không phải là sự lười biếng. Đó là sự sinh tồn. Khi văn hóa không đổ lỗi chỉ là một lời nói dối, mọi người sẽ ngừng tình nguyện trực on-call. Họ ngừng chịu trách nhiệm cho việc sửa lỗi. Họ quan tâm đến dấu vết hồ sơ của mình hơn là hệ thống.

Bạn sẽ thấy sự thật khi một kỹ sư cấp cao yêu cầu ngừng trực on-call. Ban lãnh đạo gọi đó là vấn đề về động lực. Thực tế, đó là vấn đề về niềm tin. Bạn sẽ thấy điều đó khi các hạng mục hành động tập trung vào việc "đào tạo" (coaching) thay vì tự động hóa (automation). Đào tạo thực chất chỉ là một hình thức đánh giá năng lực được ngụy trang.

Văn hóa không đổ lỗi thực sự đòi hỏi một sự khước từ mang tính tổ chức trong việc sử dụng nhật ký sự cố làm các dòng ghi chú trong sơ yếu lý lịch.

  • Postmortem nên tôn vinh người đã xuất hiện năm lần để hỗ trợ.
  • Các hạng mục hành động phải tập trung vào tự động hóa và các bộ ngắt mạch (circuit breakers).
  • Các giải pháp khắc phục nên cải thiện hệ thống, chứ không phải nhắm vào con người.

Cho đến lúc đó, "không đổ lỗi" chỉ là một từ ngữ được dùng trước khi đến phần gây tổn thương.

Nguồn: https://dev.to/omieee_24/the-blameless-postmortem-that-still-blames-you-3bdc

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi