「短网址服务」运维监控指标清单
短网址服务运维监控指标清单
1. 应用层监控
1.1 短链跳转
-
跳转 QPS
- 指标:每秒短链访问次数
- 目标:单节点 ≥ 5k QPS
- 告警:超过 80% 峰值 → 告警
-
跳转延迟(RT)
- P50、P95、P99 响应时间
- 目标:P95 ≤ 100ms
- 告警:P95 > 200ms
1.2 短链生成
-
生成 API QPS
- 指标:每秒生成请求数
-
生成延迟
- P95 ≤ 300ms
-
生成失败率
- 占比 ≤ 0.1%
- 错误码分布:
120001
(非法URL)、120004
(冲突)
1.3 错误率
-
全局错误率
- (错误请求数 / 总请求数)
- 阈值:> 1% 告警
-
错误码分布
- Top 5 错误码实时统计(110004、120005、120006、130003、100003)
2. 数据库监控
2.1 MySQL
-
连接数
- 当前连接数 vs 最大连接数
-
慢查询
-
1s 查询次数
-
-
写入 TPS
- 每秒写入短链数
-
磁盘空间
- 表
short_links
、click_logs
增长情况
- 表
2.2 Redis
-
命中率
- (hits / (hits+misses))
- 目标:≥ 90%
- 告警:< 70%
-
内存使用
- used_memory vs maxmemory
- 阈值:超过 80% 告警
-
Key 过期率
- 短链缓存过期是否正常生效
3. 统计系统监控
-
点击日志写入速率
- 每秒写入数(Kafka / MQ / DB)
-
统计落库延迟
- 点击行为入库 → 聚合结果展示的延迟
- 目标:≤ 5s
-
PV/UV 偏差
- 实际 vs 聚合结果
- 偏差 ≤ 1%
4. API Key 与限流
-
API Key 调用次数
- 每 Key 每分钟调用数
-
限流触发次数
- 返回
130003
的请求数
- 返回
-
异常 Key 调用
- 使用已删除/过期 Key 的请求数
5. 系统资源监控
5.1 应用节点
-
CPU 使用率
- 平均 ≤ 70%
- 阈值:> 85% 告警
-
内存使用率
- 平均 ≤ 70%
- 阈值:> 85% 告警
-
GC 延迟
- 平均 ≤ 50ms
- 告警:单次 GC > 200ms
5.2 容器/Pod 级
- Pod 副本数(是否自动伸缩正常)
- 重启次数(异常重启需告警)
- 网络延迟与丢包率
6. 可用性与业务监控
-
健康检查接口
/health
定期探测 → 返回 200 即可
-
业务 SLA
- 短链跳转成功率 ≥ 99.9%
-
核心路径监控
- 首页生成 → 短链跳转 → 统计刷新
- 自动化探针(Synthetic Monitoring)
-
异常报警
- 短链跳转错误率 > 1%
- 短链生成错误率 > 2%
- Redis 命中率 < 70%
- DB 慢查询激增
7. 日志与审计
-
访问日志
- 短链访问记录(短码、IP、UA、时间)
-
错误日志
- 包含错误码、请求上下文、TraceID
-
安全审计日志
- 登录失败次数
- API Key 滥用
- 短链黑名单拦截
工具建议
- 监控系统:Prometheus + Grafana(实时指标)
- 日志系统:ELK / Loki(集中存储、查询)
- 报警系统:Alertmanager + 飞书/钉钉/Slack
- 链路追踪:Jaeger / OpenTelemetry(跟踪跳转延迟)
📌 这样一份 运维监控指标清单 可以直接作为 SRE/运维的落地方案,用来搭建监控面板和报警规则。