值班告警降噪实践
2024-02-26 00:40:00
# 运维保障
告警数量多不等于监控做得好。对一线值班同学来说,真正重要的是“有事必响,没事别响”。
之前的问题
- 同一故障在 10 分钟内重复发送多次
- 上游服务雪崩时,下游告警一起爆发
- 不同群组收到的是同一批信息
本次调整
| 项目 | 调整前 | 调整后 |
|---|---|---|
| 告警聚合窗口 | 1 分钟 | 5 分钟 |
| 夜间低优先级通知 | 全量发送 | 合并摘要 |
| 恢复通知 | 默认关闭 | 关键服务开启 |
执行原则
- 先合并重复告警
- 再压缩低价值告警
- 最后补恢复通知,避免“只知道坏了,不知道好了”
现场经验
真正能降低焦虑的,不是多一条监控,而是把值班手册、升级路径和联系人写清楚。否则每次告警响起,团队都要重新组织一次信息。
结论
降噪不是减少责任,而是让真正需要处理的问题更快浮出来。对于小团队,这件事的收益通常比多接几项新监控更高。