值班告警降噪实践
发布时间 2024-02-26 00:40:00 # 运维保障

告警数量多不等于监控做得好。对一线值班同学来说,真正重要的是“有事必响,没事别响”。

之前的问题

  • 同一故障在 10 分钟内重复发送多次
  • 上游服务雪崩时,下游告警一起爆发
  • 不同群组收到的是同一批信息

本次调整

项目 调整前 调整后
告警聚合窗口 1 分钟 5 分钟
夜间低优先级通知 全量发送 合并摘要
恢复通知 默认关闭 关键服务开启

执行原则

  1. 先合并重复告警
  2. 再压缩低价值告警
  3. 最后补恢复通知,避免“只知道坏了,不知道好了”

现场经验

真正能降低焦虑的,不是多一条监控,而是把值班手册、升级路径和联系人写清楚。否则每次告警响起,团队都要重新组织一次信息。

结论

降噪不是减少责任,而是让真正需要处理的问题更快浮出来。对于小团队,这件事的收益通常比多接几项新监控更高。

Prev
2024-02-27 04:05:00
Next