fischer-agentkit/docs/plans/2026-06-16-005-backtest-rep...

59 lines
1.9 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# SimpleRouter 回测报告
created: 2026-06-16
## 回测结果
### 路由准确率
| 指标 | 结果 |
|------|------|
| 总测试用例 | 24 |
| 通过 | 24 |
| 失败 | 0 |
| **准确率** | **100%** |
### 分类明细
| 分类 | 用例数 | 通过 | 准确率 |
|------|-------|------|--------|
| 问候/闲聊 → DIRECT_CHAT | 4 | 4 | 100% |
| 口语化工具查询 → REACT | 5 | 5 | 100% |
| 标准工具查询 → REACT | 5 | 5 | 100% |
| 翻译/知识 → REACT | 3 | 3 | 100% |
| 复杂查询 → REACT | 3 | 3 | 100% |
| @skill 前缀 → SKILL_REACT | 1 | 1 | 100% |
### 口语化查询覆盖(核心改进)
| 输入 | 旧架构结果 | 新架构结果 |
|------|-----------|-----------|
| "查下ip" | direct_agent (误判) | REACT ✓ |
| "查看当前ip" | direct_agent (误判) | REACT ✓ |
| "获取ip地址" | direct_agent (误判) | REACT ✓ |
| "看下ip" | direct_agent (误判) | REACT ✓ |
| "帮我查一下ip" | direct_agent (误判) | REACT ✓ |
### 改写一致性
| 测试组 | 原始说法 | 改写说法数 | 一致性 |
|--------|---------|-----------|--------|
| ip_check_variants | "查看当前ip" | 5 | 100% |
| search_variants | "搜索golang教程" | 3 | 100% |
## 与旧架构对比
| 指标 | CostAwareRouter (旧) | SimpleRouter (新) |
|------|---------------------|-------------------|
| 执行模式准确率 | 40.38% | **100%** |
| 口语化查询成功率 | 30% | **100%** |
| 路由层 LLM 调用 | 1次/查询 | **0次/查询** |
| 路由层延迟 | ~500ms | **<1ms** |
| 路由层 token 消耗 | ~1000 tokens | **0 tokens** |
## 注意事项
1. 翻译/知识类查询现在走 REACTLLM 看到工具但决定不使用比旧架构多消耗约 2000 tokens工具描述
2. 这是可靠性换 token 的权衡可接受
3. 后续可通过模型能力检测优化支持 function calling 的模型用 API tools不支持才用 prompt-based