fischer-agentkit/test-results/e2e/capability_report.txt

========================================================================
  AgentKit 智能化能力分析报告
  生成时间: 2026-06-15T16:59:06.575194+00:00
========================================================================

── 总体指标 ──────────────────────────────────────────────
  观测总数:              82
  技能路由召回率:        90.00%
  技能路由精确率:        90.00%
  技能路由F1:            90.00%
  执行模式准确率:        40.38%
  任务成功率:            100.00%
  过拟合分数:            22.22%

── 分类明细 ──────────────────────────────────────────────
  [路由/显式前缀]
    样本数=1  召回率=100.00%  精确率=100.00%  F1=100.00%
    执行模式准确率=100.00%  成功率=100.00%  平均耗时=0ms

  [路由/问候语]
    样本数=2  召回率=100.00%  精确率=100.00%  F1=100.00%
    执行模式准确率=100.00%  成功率=100.00%  平均耗时=0ms

  [路由/身份识别]
    样本数=1  召回率=100.00%  精确率=100.00%  F1=100.00%
    执行模式准确率=100.00%  成功率=100.00%  平均耗时=0ms

  [路由/关键词匹配]
    样本数=62  召回率=67.74%  精确率=67.74%  F1=67.74%
    执行模式准确率=51.61%  成功率=100.00%  平均耗时=4449ms

  [semantic_router/colloquial_match]
    样本数=5  召回率=100.00%  精确率=100.00%  F1=100.00%
    执行模式准确率=0.00%  成功率=100.00%  平均耗时=2411ms

  [semantic_router/description_match]
    样本数=8  召回率=100.00%  精确率=100.00%  F1=100.00%
    执行模式准确率=37.50%  成功率=100.00%  平均耗时=892ms

  [semantic_router/mixed_lang_match]
    样本数=3  召回率=100.00%  精确率=100.00%  F1=100.00%
    执行模式准确率=33.33%  成功率=100.00%  平均耗时=1ms

── 过拟合分析 ────────────────────────────────────────────
  [✓ 正常] route-kw-direct-001: 原始输入=✓, 改写一致性=100%
  [✓ 正常] route-kw-direct-002: 原始输入=✓, 改写一致性=67%
  [✓ 正常] route-kw-direct-003: 原始输入=✓, 改写一致性=67%
  [✓ 正常] route-kw-react-001: 原始输入=✗, 改写一致性=100%
  [✓ 正常] route-kw-react-002: 原始输入=✗, 改写一致性=67%
  [✓ 正常] route-kw-react-003: 原始输入=✗, 改写一致性=100%
  [✓ 正常] route-kw-rewoo-001: 原始输入=✗, 改写一致性=67%
  [✓ 正常] route-kw-rewoo-002: 原始输入=✗, 改写一致性=100%
  [✓ 正常] route-kw-reflex-001: 原始输入=✗, 改写一致性=100%
  [✓ 正常] route-kw-reflex-002: 原始输入=✗, 改写一致性=100%

── 语义路由分析 ──────────────────────────────────────────
  [colloquial_match] 样本数=5  精确率=100.00%  F1=100.00%
  [description_match] 样本数=8  精确率=100.00%  F1=100.00%
  [mixed_lang_match] 样本数=3  精确率=100.00%  F1=100.00%

── 智能化短板识别 ────────────────────────────────────────
  🟠 [高] 执行模式准确率过低 (0.00%)，子类别: colloquial_match
     证据: 正确数=0/5
     建议: 检查复杂度估算和模式选择逻辑

  🟠 [高] 执行模式准确率过低 (37.50%)，子类别: description_match
     证据: 正确数=3/8
     建议: 检查复杂度估算和模式选择逻辑

  🟠 [高] 执行模式准确率过低 (33.33%)，子类别: mixed_lang_match
     证据: 正确数=1/3
     建议: 检查复杂度估算和模式选择逻辑

  🟡 [中] 技能路由F1偏低 (0.68)，子类别: keyword_match
     证据: 召回率=67.74%, 精确率=67.74%, 样本数=62
     建议: 微调路由阈值或增加更多意图示例

  🟡 [中] 执行模式准确率过低 (51.61%)，子类别: keyword_match
     证据: 正确数=32/62
     建议: 检查复杂度估算和模式选择逻辑

── 根因分析 ──────────────────────────────────────────────
  ▸ [复杂度估算偏差] 置信度: ███████░░░ 75%
    原因: 复杂度估算偏差：倾向高估复杂度（将简单任务误判为需要多步推理）
    详情: 共 31 个执行模式判断错误。低估复杂度 0 次，高估复杂度 1 次。受影响子类别: description_match, mixed_lang_match, colloquial_match, keyword_match
    受影响用例: route-kw-rewoo-001, route-kw-rewoo-002, route-kw-reflex-001, route-kw-reflex-002, route-kw-planexec-001...

  ▸ [意图歧义] 置信度: ███████░░░ 70%
    原因: 意图歧义：不同技能的关键词/意图描述重叠，导致路由混淆
    详情: 技能混淆对: rewoo_agent→competitor_analyzer(2次); reflexion_agent→code_reviewer(1次)
    受影响用例: route-kw-rewoo-001, route-kw-rewoo-001, route-kw-reflex-001

  ▸ [质量门控阈值过低] 置信度: ██████░░░░ 60%
    原因: 质量门控阈值过低：任务虽成功完成但输出了错误结果
    详情: 共 3 个任务虽然HTTP成功但路由到了错误技能。质量门控未能拦截这些错误路由的结果。
    受影响用例: route-kw-rewoo-001, route-kw-rewoo-001, route-kw-reflex-001

── 改进策略规划 ──────────────────────────────────────────
  ┌─ 策略 1: 意图歧义：不同技能的关键词/意图描述重叠，导致路由混淆
  │ 总体策略: 短期：添加互斥关键词消歧；中期：启用LLM二次分类；长期：训练专用意图分类模型替代规则匹配
  │
  │ 🟠 [P1] 为易混淆技能添加互斥关键词
  │   目标模块: configs/skills/*.yaml → intent.disambiguation_keywords
   │   具体操作: 在技能配置中为容易混淆的技能对添加互斥关键词（disambiguation_keywords），当用户输入同时匹配多个技能时，优先选择包含互斥关键词的技能。
  │   预期影响: 预计提升精确率 10~25%，减少技能混淆
  │   工作量: 小
  │   验证方式: 运行歧义消解回测，验证路由精确率提升
  │
  │ 🟡 [P2] 实现LLM二次分类消歧
  │   目标模块: src/agentkit/chat/skill_routing.py → Layer 1
   │   具体操作: 当 Layer 0/1 路由到多个候选技能时，调用 LLM quick_classify 进行二次意图判断，选择最匹配的技能。
  │   预期影响: 预计提升精确率 15~30%，但增加 ~500ms 延迟和 ~100 tokens
  │   工作量: 中
  │   验证方式: 运行歧义消解回测，对比延迟和精确率变化
  │
  └────────────────────────────────────────────────────────────

  ┌─ 策略 2: 复杂度估算偏差：倾向高估复杂度（将简单任务误判为需要多步推理）
  │ 总体策略: 短期：调整启发式规则权重；中期：构建复杂度校准数据集；长期：训练复杂度评估模型替代规则
  │
  │ 🟠 [P1] 优化复杂度估算启发式规则
  │   目标模块: src/agentkit/chat/skill_routing.py → HeuristicClassifier
   │   具体操作: 调整 HeuristicClassifier 的复杂度评分权重：增加任务动词（分析/研究/设计）的权重，降低简单问答动词（是什么/多少）的权重。
  │   预期影响: 预计提升执行模式准确率 10~20%
  │   工作量: 小
  │   验证方式: 运行执行模式回测，验证准确率提升
  │
  │ 🟡 [P2] 引入任务复杂度校准数据集
  │   目标模块: tests/e2e/benchmark_dataset.py
   │   具体操作: 收集标注了复杂度等级的真实用户查询，构建校准数据集，定期评估和调整复杂度阈值。
  │   预期影响: 持续提升复杂度判断准确性
  │   工作量: 中
  │   验证方式: 每次调整后运行回测，对比前后F1变化
  │
  └────────────────────────────────────────────────────────────

  ┌─ 策略 3: 质量门控阈值过低：任务虽成功完成但输出了错误结果
  │ 总体策略: 短期：增加技能匹配验证；中期：引入输出质量评分模型；长期：实现自动质量回归检测
  │
  │ 🟠 [P1] 增强质量门控的技能匹配验证
  │   目标模块: src/agentkit/quality/gate.py
   │   具体操作: 在QualityGate中增加技能匹配验证：检查输出是否与路由到的技能的能力范围一致，如果不一致则触发重试或降级。
  │   预期影响: 减少错误路由导致的低质量输出
  │   工作量: 中
  │   验证方式: 运行质量门控回测，验证错误路由拦截率
  │
  └────────────────────────────────────────────────────────────

── L3 输出质量评估 ──────────────────────────────────────────
  评估样本数:          18
  平均质量评分:        4.72/5.0
  评分分布:            1分:0 2分:0 3分:1 4分:3 5分:14

  样例:
    [route-edge-explicit-001] 评分=5 期望=react_agent 实际=react_agent
      理由: 路由精准匹配用户指定的技能与意图，执行模式完全正确。
    [route-kw-direct-002] 评分=4 期望=direct_agent 实际=direct_agent
      理由: 路由与期望完全一致，direct_chat模式适合处理此类缺乏具体上下文的模糊指令，以便进行澄清或基于历史对话进行总结。
    [route-kw-geo-001] 评分=5 期望=geo_optimizer 实际=geo_optimizer
      理由: 路由精准匹配期望技能，且技能名称完全契合用户优化SEO的意图。
    [route-kw-monitor-001] 评分=5 期望=monitor 实际=monitor
      理由: 实际路由技能与期望技能完全一致，精准匹配用户监测品牌引用变化的意图。
    [semantic-reflex-001] 评分=5 期望=reflexion_agent 实际=reflexion_agent
      理由: 实际路由技能与期望技能完全一致，且反思（reflexion）执行模式完美契合高精度与自我验证的任务需求。

── L5 自适应能力 ──────────────────────────────────────────
  测试组数:            10
  平均自适应率:        86.67%
  高自适应(>=80%):     6/10

========================================================================