1.3 KiB
1.3 KiB
监控告警配置
文档版本: v1.0.0
创建日期: 2026-05-25
最后更新: 2026-05-25
文档作者: 运维团队
文档状态: 草稿
适用范围: 运维团队、DevOps
目录
一、监控工具
| 工具 | 用途 |
|---|---|
| 阿里云 ARMS | 应用性能监控 |
| Prometheus + Grafana | 基础设施监控 |
| Sentry | 错误追踪 |
二、监控指标
2.1 应用指标
- 响应时间 (P95 < 200ms)
- 错误率 (< 1%)
- QPS
- 内存使用率
- CPU 使用率
2.2 系统指标
- 服务器 CPU
- 服务器内存
- 磁盘使用率
- 网络流量
三、告警规则
| 告警名称 | 触发条件 | 级别 | 通知方式 |
|---|---|---|---|
| CPU 使用率过高 | CPU > 80% 持续 5 分钟 | P1 | 飞书、短信 |
| 内存使用率过高 | 内存 > 85% 持续 5 分钟 | P1 | 飞书、短信 |
| 错误率过高 | 错误率 > 5% 持续 1 分钟 | P0 | 电话、短信 |
文档维护: 本文档由运维团队维护,监控配置变更时更新
反馈渠道: 如有问题,请联系运维负责人
最后更新: 2026-05-25
文档状态: 草稿