𝗧𝗵𝗲 𝗕𝗹𝗮𝗺𝗲𝗹𝗲𝘀𝘀 𝗣𝗼𝘀𝘁𝗺𝗼𝗿𝘁𝗲𝗺 𝗧𝗵𝗮𝘁 𝗦𝘁𝗶𝗹𝗹 𝗕𝗹𝗮𝗺𝗲𝘀 𝗬𝗼𝘂 那些名义上“无责”,实则仍在“甩锅”的复盘
你坐在会议室里。幻灯片上写着这是一场“无责复盘”(blameless postmortem)。主持人告诉你,要关注系统而非个人。你点头示意。但你依然觉得自己在受罚。
公司在使用“心理安全感”这类术语。没人问是谁搞坏了系统,他们问的是是什么导致了故障。这听起来很美好,但在实践中,这往往感觉更像是一种监视。
事件时间线被存放在一个共享文件夹里。讨论串中出现了一个问题:“在告警升级之前,你是否确认了该告警?”这看起来像是一个事实性问题,但实际上,它是一个贴着你名字的时间戳。你的经理会利用这些数据来进行你的季度绩效评估。
系统并不会直接指责某人。它只是记录了谁在什么时候操作了什么。它为你制造了一份错误的“纸面痕迹”。
团队认为彻底的复盘可以防止未来的错误。他们认为需要知道谁登录了系统,谁合并了代码。这形成了一种模式:如果你的名字频繁出现在各种时间线中,领导层就会把你视为一种风险。他们看不到你是那个修复了 Bug 或熬夜提供帮助的人。
聪明的工程师开始学会自我保护。他们避免成为最后一个修改配置的人。他们避开担任事件指挥官(incident commander)的角色。他们写的行动项(action items)含糊其辞,以便没有人需要独自承担责任。这不是懒惰,而是生存之道。
当“无责文化”失效时,工程师们不再主动申请值班(on-call)。他们不再对修复工作负责。他们不再关心系统,转而开始关心自己的名声。
当领导层将一名资深工程师退出值班轮换视为“积极性问题”时,你就能看出问题所在。这实际上是“信任问题”。当行动项的重点在于对你进行“辅导”而非构建自动化工具时,问题也显而易见了。
真正的无责文化只做一件事:拒绝将事件时间线转化为绩效评估。
真正的无责文化意味着: • 复盘应当表彰那些挺身而出收拾残局的人。 • 行动项应侧重于自动化和熔断机制(circuit breakers)。 • 反馈应聚焦于工具,而非针对个人的辅导。
在那之前,“无责”这个词不过是掩盖真相的遮羞布。
Source: https://dev.to/omieee_24/the-blameless-postmortem-that-still-blames-you-3bdc