登录链路异常排查记录
2023-09-08 02:25:00
# 后端实践
某次工作日上午,登录成功率从 99% 掉到 92%。接口并没有完全不可用,所以第一反应很容易误判成前端偶发异常。
实际表现
- 密码登录正常
- 短信登录偶发失败
- 失败用户集中在首次登录和切换设备场景
排查顺序
- 先看接口错误码分布
- 再看缓存读写是否存在时序问题
- 最后核对短信验证码 TTL 与校验窗口是否一致
关键线索
1 | verify_code_expired |
最终确认是验证码缓存时间从 5 分钟改成了 3 分钟,但客户端提示文案仍然写的是 5 分钟,导致用户误以为验证码还有效。
复盘动作
- 校验服务与客户端文案统一由配置中心下发
- 错误码文档补充到测试用例
- 登录相关链路加上最小可复现步骤
结论
这类问题的难点不在修复,而在“看起来像随机故障”。只要排查顺序稳定,通常都能很快缩到具体配置项。