为什么事故复盘总是写到很晚?
这两天和几个做运维/后端的朋友聊了下事故复盘发现一个很真实的情况 大家都知道复盘很重要 但几乎没人愿意写我问了一个问题“为什么一份复盘总是要写那么久”总结下来基本都是这几个原因1️⃣ 信息太分散日志、监控、告警、链路……全在不同地方 光是把信息找齐就要花不少时间2️⃣ 时间线很难还原哪个先发生哪个是触发点 经常要在不同系统之间来回切甚至有点“靠猜”3️⃣ 根因分析很费脑子即使数据都有了也不一定能马上看出来 到底是哪一步出了问题4️⃣ 写出来更麻烦好不容易理清了还要整理成结构化内容事故摘要影响范围根因分析改进措施 这一步其实最耗时间所以很多时候就变成 修问题很快 写复盘很慢我最近在尝试一个小思路 能不能先自动生成一版“复盘初稿”比如从日志里直接给出事故摘要可能的根因影响范围建议措施哪怕不完全准确至少不用从0开始写目前试下来 可以覆盖大部分基础工作 时间能省下来不少挺好奇的 你们现在写复盘最花时间的是哪一步
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2458583.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!