登录链路异常排查记录
发布时间 2023-09-08 02:25:00 # 后端实践

某次工作日上午,登录成功率从 99% 掉到 92%。接口并没有完全不可用,所以第一反应很容易误判成前端偶发异常。

实际表现

  • 密码登录正常
  • 短信登录偶发失败
  • 失败用户集中在首次登录和切换设备场景

排查顺序

  1. 先看接口错误码分布
  2. 再看缓存读写是否存在时序问题
  3. 最后核对短信验证码 TTL 与校验窗口是否一致

关键线索

1
2
3
verify_code_expired
cache_key_exists
request_trace_id=9f3c2a1d

最终确认是验证码缓存时间从 5 分钟改成了 3 分钟,但客户端提示文案仍然写的是 5 分钟,导致用户误以为验证码还有效。

复盘动作

  • 校验服务与客户端文案统一由配置中心下发
  • 错误码文档补充到测试用例
  • 登录相关链路加上最小可复现步骤

结论

这类问题的难点不在修复,而在“看起来像随机故障”。只要排查顺序稳定,通常都能很快缩到具体配置项。

Prev
2023-09-08 06:55:00
Next