fischer-agentkit/docs/plans/2026-06-16-005-backtest-rep...

1.9 KiB
Raw Permalink Blame History

SimpleRouter 回测报告

created: 2026-06-16

回测结果

路由准确率

指标 结果
总测试用例 24
通过 24
失败 0
准确率 100%

分类明细

分类 用例数 通过 准确率
问候/闲聊 → DIRECT_CHAT 4 4 100%
口语化工具查询 → REACT 5 5 100%
标准工具查询 → REACT 5 5 100%
翻译/知识 → REACT 3 3 100%
复杂查询 → REACT 3 3 100%
@skill 前缀 → SKILL_REACT 1 1 100%

口语化查询覆盖(核心改进)

输入 旧架构结果 新架构结果
"查下ip" direct_agent (误判) REACT ✓
"查看当前ip" direct_agent (误判) REACT ✓
"获取ip地址" direct_agent (误判) REACT ✓
"看下ip" direct_agent (误判) REACT ✓
"帮我查一下ip" direct_agent (误判) REACT ✓

改写一致性

测试组 原始说法 改写说法数 一致性
ip_check_variants "查看当前ip" 5 100%
search_variants "搜索golang教程" 3 100%

与旧架构对比

指标 CostAwareRouter (旧) SimpleRouter (新)
执行模式准确率 40.38% 100%
口语化查询成功率 30% 100%
路由层 LLM 调用 1次/查询 0次/查询
路由层延迟 ~500ms <1ms
路由层 token 消耗 ~1000 tokens 0 tokens

注意事项

  1. 翻译/知识类查询现在走 REACTLLM 看到工具但决定不使用),比旧架构多消耗约 2000 tokens工具描述
  2. 这是可靠性换 token 的权衡,可接受
  3. 后续可通过模型能力检测优化:支持 function calling 的模型用 API tools不支持才用 prompt-based