fischerX/docs/operations/monitoring.md

61 lines
1.3 KiB
Markdown

# 监控告警配置
> **文档版本**: v1.0.0
> **创建日期**: 2026-05-25
> **最后更新**: 2026-05-25
> **文档作者**: 运维团队
> **文档状态**: 草稿
> **适用范围**: 运维团队、DevOps
## 目录
- [一、监控工具](#一监控工具)
- [二、监控指标](#二监控指标)
- [三、告警规则](#三告警规则)
---
## 一、监控工具
| 工具 | 用途 |
|------|------|
| 阿里云 ARMS | 应用性能监控 |
| Prometheus + Grafana | 基础设施监控 |
| Sentry | 错误追踪 |
---
## 二、监控指标
### 2.1 应用指标
- 响应时间 (P95 < 200ms)
- 错误率 (< 1%)
- QPS
- 内存使用率
- CPU 使用率
### 2.2 系统指标
- 服务器 CPU
- 服务器内存
- 磁盘使用率
- 网络流量
---
## 三、告警规则
| 告警名称 | 触发条件 | 级别 | 通知方式 |
|---------|---------|------|---------|
| CPU 使用率过高 | CPU > 80% 持续 5 分钟 | P1 | 飞书、短信 |
| 内存使用率过高 | 内存 > 85% 持续 5 分钟 | P1 | 飞书、短信 |
| 错误率过高 | 错误率 > 5% 持续 1 分钟 | P0 | 电话、短信 |
---
> **文档维护**: 本文档由运维团队维护,监控配置变更时更新
> **反馈渠道**: 如有问题,请联系运维负责人
> **最后更新**: 2026-05-25
> **文档状态**: 草稿