fischer-agentkit/test-results/e2e/capability_report.txt

171 lines
11 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

========================================================================
AgentKit 智能化能力分析报告
生成时间: 2026-06-15T16:59:06.575194+00:00
========================================================================
── 总体指标 ──────────────────────────────────────────────
观测总数: 82
技能路由召回率: 90.00%
技能路由精确率: 90.00%
技能路由F1: 90.00%
执行模式准确率: 40.38%
任务成功率: 100.00%
过拟合分数: 22.22%
── 分类明细 ──────────────────────────────────────────────
[路由/显式前缀]
样本数=1 召回率=100.00% 精确率=100.00% F1=100.00%
执行模式准确率=100.00% 成功率=100.00% 平均耗时=0ms
[路由/问候语]
样本数=2 召回率=100.00% 精确率=100.00% F1=100.00%
执行模式准确率=100.00% 成功率=100.00% 平均耗时=0ms
[路由/身份识别]
样本数=1 召回率=100.00% 精确率=100.00% F1=100.00%
执行模式准确率=100.00% 成功率=100.00% 平均耗时=0ms
[路由/关键词匹配]
样本数=62 召回率=67.74% 精确率=67.74% F1=67.74%
执行模式准确率=51.61% 成功率=100.00% 平均耗时=4449ms
[semantic_router/colloquial_match]
样本数=5 召回率=100.00% 精确率=100.00% F1=100.00%
执行模式准确率=0.00% 成功率=100.00% 平均耗时=2411ms
[semantic_router/description_match]
样本数=8 召回率=100.00% 精确率=100.00% F1=100.00%
执行模式准确率=37.50% 成功率=100.00% 平均耗时=892ms
[semantic_router/mixed_lang_match]
样本数=3 召回率=100.00% 精确率=100.00% F1=100.00%
执行模式准确率=33.33% 成功率=100.00% 平均耗时=1ms
── 过拟合分析 ────────────────────────────────────────────
[✓ 正常] route-kw-direct-001: 原始输入=✓, 改写一致性=100%
[✓ 正常] route-kw-direct-002: 原始输入=✓, 改写一致性=67%
[✓ 正常] route-kw-direct-003: 原始输入=✓, 改写一致性=67%
[✓ 正常] route-kw-react-001: 原始输入=✗, 改写一致性=100%
[✓ 正常] route-kw-react-002: 原始输入=✗, 改写一致性=67%
[✓ 正常] route-kw-react-003: 原始输入=✗, 改写一致性=100%
[✓ 正常] route-kw-rewoo-001: 原始输入=✗, 改写一致性=67%
[✓ 正常] route-kw-rewoo-002: 原始输入=✗, 改写一致性=100%
[✓ 正常] route-kw-reflex-001: 原始输入=✗, 改写一致性=100%
[✓ 正常] route-kw-reflex-002: 原始输入=✗, 改写一致性=100%
── 语义路由分析 ──────────────────────────────────────────
[colloquial_match] 样本数=5 精确率=100.00% F1=100.00%
[description_match] 样本数=8 精确率=100.00% F1=100.00%
[mixed_lang_match] 样本数=3 精确率=100.00% F1=100.00%
── 智能化短板识别 ────────────────────────────────────────
🟠 [高] 执行模式准确率过低 (0.00%),子类别: colloquial_match
证据: 正确数=0/5
建议: 检查复杂度估算和模式选择逻辑
🟠 [高] 执行模式准确率过低 (37.50%),子类别: description_match
证据: 正确数=3/8
建议: 检查复杂度估算和模式选择逻辑
🟠 [高] 执行模式准确率过低 (33.33%),子类别: mixed_lang_match
证据: 正确数=1/3
建议: 检查复杂度估算和模式选择逻辑
🟡 [中] 技能路由F1偏低 (0.68),子类别: keyword_match
证据: 召回率=67.74%, 精确率=67.74%, 样本数=62
建议: 微调路由阈值或增加更多意图示例
🟡 [中] 执行模式准确率过低 (51.61%),子类别: keyword_match
证据: 正确数=32/62
建议: 检查复杂度估算和模式选择逻辑
── 根因分析 ──────────────────────────────────────────────
▸ [复杂度估算偏差] 置信度: ███████░░░ 75%
原因: 复杂度估算偏差:倾向高估复杂度(将简单任务误判为需要多步推理)
详情: 共 31 个执行模式判断错误。低估复杂度 0 次,高估复杂度 1 次。受影响子类别: description_match, mixed_lang_match, colloquial_match, keyword_match
受影响用例: route-kw-rewoo-001, route-kw-rewoo-002, route-kw-reflex-001, route-kw-reflex-002, route-kw-planexec-001...
▸ [意图歧义] 置信度: ███████░░░ 70%
原因: 意图歧义:不同技能的关键词/意图描述重叠,导致路由混淆
详情: 技能混淆对: rewoo_agent→competitor_analyzer(2次); reflexion_agent→code_reviewer(1次)
受影响用例: route-kw-rewoo-001, route-kw-rewoo-001, route-kw-reflex-001
▸ [质量门控阈值过低] 置信度: ██████░░░░ 60%
原因: 质量门控阈值过低:任务虽成功完成但输出了错误结果
详情: 共 3 个任务虽然HTTP成功但路由到了错误技能。质量门控未能拦截这些错误路由的结果。
受影响用例: route-kw-rewoo-001, route-kw-rewoo-001, route-kw-reflex-001
── 改进策略规划 ──────────────────────────────────────────
┌─ 策略 1: 意图歧义:不同技能的关键词/意图描述重叠,导致路由混淆
│ 总体策略: 短期添加互斥关键词消歧中期启用LLM二次分类长期训练专用意图分类模型替代规则匹配
│ 🟠 [P1] 为易混淆技能添加互斥关键词
│ 目标模块: configs/skills/*.yaml → intent.disambiguation_keywords
│ 具体操作: 在技能配置中为容易混淆的技能对添加互斥关键词disambiguation_keywords当用户输入同时匹配多个技能时优先选择包含互斥关键词的技能。
│ 预期影响: 预计提升精确率 10~25%,减少技能混淆
│ 工作量: 小
│ 验证方式: 运行歧义消解回测,验证路由精确率提升
│ 🟡 [P2] 实现LLM二次分类消歧
│ 目标模块: src/agentkit/chat/skill_routing.py → Layer 1
│ 具体操作: 当 Layer 0/1 路由到多个候选技能时,调用 LLM quick_classify 进行二次意图判断,选择最匹配的技能。
│ 预期影响: 预计提升精确率 15~30%,但增加 ~500ms 延迟和 ~100 tokens
│ 工作量: 中
│ 验证方式: 运行歧义消解回测,对比延迟和精确率变化
└────────────────────────────────────────────────────────────
┌─ 策略 2: 复杂度估算偏差:倾向高估复杂度(将简单任务误判为需要多步推理)
│ 总体策略: 短期:调整启发式规则权重;中期:构建复杂度校准数据集;长期:训练复杂度评估模型替代规则
│ 🟠 [P1] 优化复杂度估算启发式规则
│ 目标模块: src/agentkit/chat/skill_routing.py → HeuristicClassifier
│ 具体操作: 调整 HeuristicClassifier 的复杂度评分权重:增加任务动词(分析/研究/设计)的权重,降低简单问答动词(是什么/多少)的权重。
│ 预期影响: 预计提升执行模式准确率 10~20%
│ 工作量: 小
│ 验证方式: 运行执行模式回测,验证准确率提升
│ 🟡 [P2] 引入任务复杂度校准数据集
│ 目标模块: tests/e2e/benchmark_dataset.py
│ 具体操作: 收集标注了复杂度等级的真实用户查询,构建校准数据集,定期评估和调整复杂度阈值。
│ 预期影响: 持续提升复杂度判断准确性
│ 工作量: 中
│ 验证方式: 每次调整后运行回测对比前后F1变化
└────────────────────────────────────────────────────────────
┌─ 策略 3: 质量门控阈值过低:任务虽成功完成但输出了错误结果
│ 总体策略: 短期:增加技能匹配验证;中期:引入输出质量评分模型;长期:实现自动质量回归检测
│ 🟠 [P1] 增强质量门控的技能匹配验证
│ 目标模块: src/agentkit/quality/gate.py
│ 具体操作: 在QualityGate中增加技能匹配验证检查输出是否与路由到的技能的能力范围一致如果不一致则触发重试或降级。
│ 预期影响: 减少错误路由导致的低质量输出
│ 工作量: 中
│ 验证方式: 运行质量门控回测,验证错误路由拦截率
└────────────────────────────────────────────────────────────
── L3 输出质量评估 ──────────────────────────────────────────
评估样本数: 18
平均质量评分: 4.72/5.0
评分分布: 1分:0 2分:0 3分:1 4分:3 5分:14
样例:
[route-edge-explicit-001] 评分=5 期望=react_agent 实际=react_agent
理由: 路由精准匹配用户指定的技能与意图,执行模式完全正确。
[route-kw-direct-002] 评分=4 期望=direct_agent 实际=direct_agent
理由: 路由与期望完全一致direct_chat模式适合处理此类缺乏具体上下文的模糊指令以便进行澄清或基于历史对话进行总结。
[route-kw-geo-001] 评分=5 期望=geo_optimizer 实际=geo_optimizer
理由: 路由精准匹配期望技能且技能名称完全契合用户优化SEO的意图。
[route-kw-monitor-001] 评分=5 期望=monitor 实际=monitor
理由: 实际路由技能与期望技能完全一致,精准匹配用户监测品牌引用变化的意图。
[semantic-reflex-001] 评分=5 期望=reflexion_agent 实际=reflexion_agent
理由: 实际路由技能与期望技能完全一致且反思reflexion执行模式完美契合高精度与自我验证的任务需求。
── L5 自适应能力 ──────────────────────────────────────────
测试组数: 10
平均自适应率: 86.67%
高自适应(>=80%): 6/10
========================================================================