59 lines
1.9 KiB
Markdown
59 lines
1.9 KiB
Markdown
# SimpleRouter 回测报告
|
||
|
||
created: 2026-06-16
|
||
|
||
## 回测结果
|
||
|
||
### 路由准确率
|
||
|
||
| 指标 | 结果 |
|
||
|------|------|
|
||
| 总测试用例 | 24 |
|
||
| 通过 | 24 |
|
||
| 失败 | 0 |
|
||
| **准确率** | **100%** |
|
||
|
||
### 分类明细
|
||
|
||
| 分类 | 用例数 | 通过 | 准确率 |
|
||
|------|-------|------|--------|
|
||
| 问候/闲聊 → DIRECT_CHAT | 4 | 4 | 100% |
|
||
| 口语化工具查询 → REACT | 5 | 5 | 100% |
|
||
| 标准工具查询 → REACT | 5 | 5 | 100% |
|
||
| 翻译/知识 → REACT | 3 | 3 | 100% |
|
||
| 复杂查询 → REACT | 3 | 3 | 100% |
|
||
| @skill 前缀 → SKILL_REACT | 1 | 1 | 100% |
|
||
|
||
### 口语化查询覆盖(核心改进)
|
||
|
||
| 输入 | 旧架构结果 | 新架构结果 |
|
||
|------|-----------|-----------|
|
||
| "查下ip" | direct_agent (误判) | REACT ✓ |
|
||
| "查看当前ip" | direct_agent (误判) | REACT ✓ |
|
||
| "获取ip地址" | direct_agent (误判) | REACT ✓ |
|
||
| "看下ip" | direct_agent (误判) | REACT ✓ |
|
||
| "帮我查一下ip" | direct_agent (误判) | REACT ✓ |
|
||
|
||
### 改写一致性
|
||
|
||
| 测试组 | 原始说法 | 改写说法数 | 一致性 |
|
||
|--------|---------|-----------|--------|
|
||
| ip_check_variants | "查看当前ip" | 5 | 100% |
|
||
| search_variants | "搜索golang教程" | 3 | 100% |
|
||
|
||
## 与旧架构对比
|
||
|
||
| 指标 | CostAwareRouter (旧) | SimpleRouter (新) |
|
||
|------|---------------------|-------------------|
|
||
| 执行模式准确率 | 40.38% | **100%** |
|
||
| 口语化查询成功率 | 30% | **100%** |
|
||
| 路由层 LLM 调用 | 1次/查询 | **0次/查询** |
|
||
| 路由层延迟 | ~500ms | **<1ms** |
|
||
| 路由层 token 消耗 | ~1000 tokens | **0 tokens** |
|
||
|
||
## 注意事项
|
||
|
||
1. 翻译/知识类查询现在走 REACT(LLM 看到工具但决定不使用),比旧架构多消耗约 2000 tokens(工具描述)
|
||
2. 这是可靠性换 token 的权衡,可接受
|
||
3. 后续可通过模型能力检测优化:支持 function calling 的模型用 API tools,不支持才用 prompt-based
|