geo/docs/02-模块说明/monitoring.md

65 lines
1.3 KiB
Markdown

# 监控模块
## 概述
监控系统用于追踪系统运行状态、收集性能指标、检测异常并发送告警。
## 监控范围
### 系统监控
- CPU、内存、磁盘使用率
- 网络流量
- 进程状态
### 应用监控
- API响应时间
- 请求成功率
- 错误率
- 并发连接数
### 业务监控
- Agent运行状态
- 任务队列深度
- 知识库检索延迟
## 监控指标
位置:`backend/app/monitoring/`
| 指标 | 类型 | 说明 |
|------|------|------|
| http_requests_total | Counter | HTTP请求总数 |
| http_request_duration_seconds | Histogram | 请求延迟分布 |
| agent_tasks_total | Counter | Agent任务总数 |
| agent_task_duration_seconds | Histogram | 任务执行时间 |
| queue_depth | Gauge | 队列深度 |
## 健康检查
### 端点
| 路径 | 说明 |
|------|------|
| GET /health | 服务健康检查 |
| GET /health/ready | 就绪检查 |
| GET /health/live | 存活检查 |
### 检查项
- 数据库连接
- Redis连接
- 磁盘空间
- 内存使用率
## 告警规则
| 规则 | 条件 | 级别 |
|------|------|------|
| API响应超时 | p99 > 5s | Warning |
| API错误率高 | error_rate > 5% | Error |
| 队列积压 | queue_depth > 1000 | Warning |
| Agent离线 | heartbeat_timeout | Critical |