======================================================================== AgentKit 智能化能力分析报告 生成时间: 2026-06-15T16:59:06.575194+00:00 ======================================================================== ── 总体指标 ────────────────────────────────────────────── 观测总数: 82 技能路由召回率: 90.00% 技能路由精确率: 90.00% 技能路由F1: 90.00% 执行模式准确率: 40.38% 任务成功率: 100.00% 过拟合分数: 22.22% ── 分类明细 ────────────────────────────────────────────── [路由/显式前缀] 样本数=1 召回率=100.00% 精确率=100.00% F1=100.00% 执行模式准确率=100.00% 成功率=100.00% 平均耗时=0ms [路由/问候语] 样本数=2 召回率=100.00% 精确率=100.00% F1=100.00% 执行模式准确率=100.00% 成功率=100.00% 平均耗时=0ms [路由/身份识别] 样本数=1 召回率=100.00% 精确率=100.00% F1=100.00% 执行模式准确率=100.00% 成功率=100.00% 平均耗时=0ms [路由/关键词匹配] 样本数=62 召回率=67.74% 精确率=67.74% F1=67.74% 执行模式准确率=51.61% 成功率=100.00% 平均耗时=4449ms [semantic_router/colloquial_match] 样本数=5 召回率=100.00% 精确率=100.00% F1=100.00% 执行模式准确率=0.00% 成功率=100.00% 平均耗时=2411ms [semantic_router/description_match] 样本数=8 召回率=100.00% 精确率=100.00% F1=100.00% 执行模式准确率=37.50% 成功率=100.00% 平均耗时=892ms [semantic_router/mixed_lang_match] 样本数=3 召回率=100.00% 精确率=100.00% F1=100.00% 执行模式准确率=33.33% 成功率=100.00% 平均耗时=1ms ── 过拟合分析 ──────────────────────────────────────────── [✓ 正常] route-kw-direct-001: 原始输入=✓, 改写一致性=100% [✓ 正常] route-kw-direct-002: 原始输入=✓, 改写一致性=67% [✓ 正常] route-kw-direct-003: 原始输入=✓, 改写一致性=67% [✓ 正常] route-kw-react-001: 原始输入=✗, 改写一致性=100% [✓ 正常] route-kw-react-002: 原始输入=✗, 改写一致性=67% [✓ 正常] route-kw-react-003: 原始输入=✗, 改写一致性=100% [✓ 正常] route-kw-rewoo-001: 原始输入=✗, 改写一致性=67% [✓ 正常] route-kw-rewoo-002: 原始输入=✗, 改写一致性=100% [✓ 正常] route-kw-reflex-001: 原始输入=✗, 改写一致性=100% [✓ 正常] route-kw-reflex-002: 原始输入=✗, 改写一致性=100% ── 语义路由分析 ────────────────────────────────────────── [colloquial_match] 样本数=5 精确率=100.00% F1=100.00% [description_match] 样本数=8 精确率=100.00% F1=100.00% [mixed_lang_match] 样本数=3 精确率=100.00% F1=100.00% ── 智能化短板识别 ──────────────────────────────────────── 🟠 [高] 执行模式准确率过低 (0.00%),子类别: colloquial_match 证据: 正确数=0/5 建议: 检查复杂度估算和模式选择逻辑 🟠 [高] 执行模式准确率过低 (37.50%),子类别: description_match 证据: 正确数=3/8 建议: 检查复杂度估算和模式选择逻辑 🟠 [高] 执行模式准确率过低 (33.33%),子类别: mixed_lang_match 证据: 正确数=1/3 建议: 检查复杂度估算和模式选择逻辑 🟡 [中] 技能路由F1偏低 (0.68),子类别: keyword_match 证据: 召回率=67.74%, 精确率=67.74%, 样本数=62 建议: 微调路由阈值或增加更多意图示例 🟡 [中] 执行模式准确率过低 (51.61%),子类别: keyword_match 证据: 正确数=32/62 建议: 检查复杂度估算和模式选择逻辑 ── 根因分析 ────────────────────────────────────────────── ▸ [复杂度估算偏差] 置信度: ███████░░░ 75% 原因: 复杂度估算偏差:倾向高估复杂度(将简单任务误判为需要多步推理) 详情: 共 31 个执行模式判断错误。低估复杂度 0 次,高估复杂度 1 次。受影响子类别: description_match, mixed_lang_match, colloquial_match, keyword_match 受影响用例: route-kw-rewoo-001, route-kw-rewoo-002, route-kw-reflex-001, route-kw-reflex-002, route-kw-planexec-001... ▸ [意图歧义] 置信度: ███████░░░ 70% 原因: 意图歧义:不同技能的关键词/意图描述重叠,导致路由混淆 详情: 技能混淆对: rewoo_agent→competitor_analyzer(2次); reflexion_agent→code_reviewer(1次) 受影响用例: route-kw-rewoo-001, route-kw-rewoo-001, route-kw-reflex-001 ▸ [质量门控阈值过低] 置信度: ██████░░░░ 60% 原因: 质量门控阈值过低:任务虽成功完成但输出了错误结果 详情: 共 3 个任务虽然HTTP成功但路由到了错误技能。质量门控未能拦截这些错误路由的结果。 受影响用例: route-kw-rewoo-001, route-kw-rewoo-001, route-kw-reflex-001 ── 改进策略规划 ────────────────────────────────────────── ┌─ 策略 1: 意图歧义:不同技能的关键词/意图描述重叠,导致路由混淆 │ 总体策略: 短期:添加互斥关键词消歧;中期:启用LLM二次分类;长期:训练专用意图分类模型替代规则匹配 │ │ 🟠 [P1] 为易混淆技能添加互斥关键词 │ 目标模块: configs/skills/*.yaml → intent.disambiguation_keywords │ 具体操作: 在技能配置中为容易混淆的技能对添加互斥关键词(disambiguation_keywords),当用户输入同时匹配多个技能时,优先选择包含互斥关键词的技能。 │ 预期影响: 预计提升精确率 10~25%,减少技能混淆 │ 工作量: 小 │ 验证方式: 运行歧义消解回测,验证路由精确率提升 │ │ 🟡 [P2] 实现LLM二次分类消歧 │ 目标模块: src/agentkit/chat/skill_routing.py → Layer 1 │ 具体操作: 当 Layer 0/1 路由到多个候选技能时,调用 LLM quick_classify 进行二次意图判断,选择最匹配的技能。 │ 预期影响: 预计提升精确率 15~30%,但增加 ~500ms 延迟和 ~100 tokens │ 工作量: 中 │ 验证方式: 运行歧义消解回测,对比延迟和精确率变化 │ └──────────────────────────────────────────────────────────── ┌─ 策略 2: 复杂度估算偏差:倾向高估复杂度(将简单任务误判为需要多步推理) │ 总体策略: 短期:调整启发式规则权重;中期:构建复杂度校准数据集;长期:训练复杂度评估模型替代规则 │ │ 🟠 [P1] 优化复杂度估算启发式规则 │ 目标模块: src/agentkit/chat/skill_routing.py → HeuristicClassifier │ 具体操作: 调整 HeuristicClassifier 的复杂度评分权重:增加任务动词(分析/研究/设计)的权重,降低简单问答动词(是什么/多少)的权重。 │ 预期影响: 预计提升执行模式准确率 10~20% │ 工作量: 小 │ 验证方式: 运行执行模式回测,验证准确率提升 │ │ 🟡 [P2] 引入任务复杂度校准数据集 │ 目标模块: tests/e2e/benchmark_dataset.py │ 具体操作: 收集标注了复杂度等级的真实用户查询,构建校准数据集,定期评估和调整复杂度阈值。 │ 预期影响: 持续提升复杂度判断准确性 │ 工作量: 中 │ 验证方式: 每次调整后运行回测,对比前后F1变化 │ └──────────────────────────────────────────────────────────── ┌─ 策略 3: 质量门控阈值过低:任务虽成功完成但输出了错误结果 │ 总体策略: 短期:增加技能匹配验证;中期:引入输出质量评分模型;长期:实现自动质量回归检测 │ │ 🟠 [P1] 增强质量门控的技能匹配验证 │ 目标模块: src/agentkit/quality/gate.py │ 具体操作: 在QualityGate中增加技能匹配验证:检查输出是否与路由到的技能的能力范围一致,如果不一致则触发重试或降级。 │ 预期影响: 减少错误路由导致的低质量输出 │ 工作量: 中 │ 验证方式: 运行质量门控回测,验证错误路由拦截率 │ └──────────────────────────────────────────────────────────── ── L3 输出质量评估 ────────────────────────────────────────── 评估样本数: 18 平均质量评分: 4.72/5.0 评分分布: 1分:0 2分:0 3分:1 4分:3 5分:14 样例: [route-edge-explicit-001] 评分=5 期望=react_agent 实际=react_agent 理由: 路由精准匹配用户指定的技能与意图,执行模式完全正确。 [route-kw-direct-002] 评分=4 期望=direct_agent 实际=direct_agent 理由: 路由与期望完全一致,direct_chat模式适合处理此类缺乏具体上下文的模糊指令,以便进行澄清或基于历史对话进行总结。 [route-kw-geo-001] 评分=5 期望=geo_optimizer 实际=geo_optimizer 理由: 路由精准匹配期望技能,且技能名称完全契合用户优化SEO的意图。 [route-kw-monitor-001] 评分=5 期望=monitor 实际=monitor 理由: 实际路由技能与期望技能完全一致,精准匹配用户监测品牌引用变化的意图。 [semantic-reflex-001] 评分=5 期望=reflexion_agent 实际=reflexion_agent 理由: 实际路由技能与期望技能完全一致,且反思(reflexion)执行模式完美契合高精度与自我验证的任务需求。 ── L5 自适应能力 ────────────────────────────────────────── 测试组数: 10 平均自适应率: 86.67% 高自适应(>=80%): 6/10 ========================================================================