171 lines
11 KiB
Plaintext
171 lines
11 KiB
Plaintext
========================================================================
|
||
AgentKit 智能化能力分析报告
|
||
生成时间: 2026-06-15T16:59:06.575194+00:00
|
||
========================================================================
|
||
|
||
── 总体指标 ──────────────────────────────────────────────
|
||
观测总数: 82
|
||
技能路由召回率: 90.00%
|
||
技能路由精确率: 90.00%
|
||
技能路由F1: 90.00%
|
||
执行模式准确率: 40.38%
|
||
任务成功率: 100.00%
|
||
过拟合分数: 22.22%
|
||
|
||
── 分类明细 ──────────────────────────────────────────────
|
||
[路由/显式前缀]
|
||
样本数=1 召回率=100.00% 精确率=100.00% F1=100.00%
|
||
执行模式准确率=100.00% 成功率=100.00% 平均耗时=0ms
|
||
|
||
[路由/问候语]
|
||
样本数=2 召回率=100.00% 精确率=100.00% F1=100.00%
|
||
执行模式准确率=100.00% 成功率=100.00% 平均耗时=0ms
|
||
|
||
[路由/身份识别]
|
||
样本数=1 召回率=100.00% 精确率=100.00% F1=100.00%
|
||
执行模式准确率=100.00% 成功率=100.00% 平均耗时=0ms
|
||
|
||
[路由/关键词匹配]
|
||
样本数=62 召回率=67.74% 精确率=67.74% F1=67.74%
|
||
执行模式准确率=51.61% 成功率=100.00% 平均耗时=4449ms
|
||
|
||
[semantic_router/colloquial_match]
|
||
样本数=5 召回率=100.00% 精确率=100.00% F1=100.00%
|
||
执行模式准确率=0.00% 成功率=100.00% 平均耗时=2411ms
|
||
|
||
[semantic_router/description_match]
|
||
样本数=8 召回率=100.00% 精确率=100.00% F1=100.00%
|
||
执行模式准确率=37.50% 成功率=100.00% 平均耗时=892ms
|
||
|
||
[semantic_router/mixed_lang_match]
|
||
样本数=3 召回率=100.00% 精确率=100.00% F1=100.00%
|
||
执行模式准确率=33.33% 成功率=100.00% 平均耗时=1ms
|
||
|
||
── 过拟合分析 ────────────────────────────────────────────
|
||
[✓ 正常] route-kw-direct-001: 原始输入=✓, 改写一致性=100%
|
||
[✓ 正常] route-kw-direct-002: 原始输入=✓, 改写一致性=67%
|
||
[✓ 正常] route-kw-direct-003: 原始输入=✓, 改写一致性=67%
|
||
[✓ 正常] route-kw-react-001: 原始输入=✗, 改写一致性=100%
|
||
[✓ 正常] route-kw-react-002: 原始输入=✗, 改写一致性=67%
|
||
[✓ 正常] route-kw-react-003: 原始输入=✗, 改写一致性=100%
|
||
[✓ 正常] route-kw-rewoo-001: 原始输入=✗, 改写一致性=67%
|
||
[✓ 正常] route-kw-rewoo-002: 原始输入=✗, 改写一致性=100%
|
||
[✓ 正常] route-kw-reflex-001: 原始输入=✗, 改写一致性=100%
|
||
[✓ 正常] route-kw-reflex-002: 原始输入=✗, 改写一致性=100%
|
||
|
||
── 语义路由分析 ──────────────────────────────────────────
|
||
[colloquial_match] 样本数=5 精确率=100.00% F1=100.00%
|
||
[description_match] 样本数=8 精确率=100.00% F1=100.00%
|
||
[mixed_lang_match] 样本数=3 精确率=100.00% F1=100.00%
|
||
|
||
── 智能化短板识别 ────────────────────────────────────────
|
||
🟠 [高] 执行模式准确率过低 (0.00%),子类别: colloquial_match
|
||
证据: 正确数=0/5
|
||
建议: 检查复杂度估算和模式选择逻辑
|
||
|
||
🟠 [高] 执行模式准确率过低 (37.50%),子类别: description_match
|
||
证据: 正确数=3/8
|
||
建议: 检查复杂度估算和模式选择逻辑
|
||
|
||
🟠 [高] 执行模式准确率过低 (33.33%),子类别: mixed_lang_match
|
||
证据: 正确数=1/3
|
||
建议: 检查复杂度估算和模式选择逻辑
|
||
|
||
🟡 [中] 技能路由F1偏低 (0.68),子类别: keyword_match
|
||
证据: 召回率=67.74%, 精确率=67.74%, 样本数=62
|
||
建议: 微调路由阈值或增加更多意图示例
|
||
|
||
🟡 [中] 执行模式准确率过低 (51.61%),子类别: keyword_match
|
||
证据: 正确数=32/62
|
||
建议: 检查复杂度估算和模式选择逻辑
|
||
|
||
── 根因分析 ──────────────────────────────────────────────
|
||
▸ [复杂度估算偏差] 置信度: ███████░░░ 75%
|
||
原因: 复杂度估算偏差:倾向高估复杂度(将简单任务误判为需要多步推理)
|
||
详情: 共 31 个执行模式判断错误。低估复杂度 0 次,高估复杂度 1 次。受影响子类别: description_match, mixed_lang_match, colloquial_match, keyword_match
|
||
受影响用例: route-kw-rewoo-001, route-kw-rewoo-002, route-kw-reflex-001, route-kw-reflex-002, route-kw-planexec-001...
|
||
|
||
▸ [意图歧义] 置信度: ███████░░░ 70%
|
||
原因: 意图歧义:不同技能的关键词/意图描述重叠,导致路由混淆
|
||
详情: 技能混淆对: rewoo_agent→competitor_analyzer(2次); reflexion_agent→code_reviewer(1次)
|
||
受影响用例: route-kw-rewoo-001, route-kw-rewoo-001, route-kw-reflex-001
|
||
|
||
▸ [质量门控阈值过低] 置信度: ██████░░░░ 60%
|
||
原因: 质量门控阈值过低:任务虽成功完成但输出了错误结果
|
||
详情: 共 3 个任务虽然HTTP成功但路由到了错误技能。质量门控未能拦截这些错误路由的结果。
|
||
受影响用例: route-kw-rewoo-001, route-kw-rewoo-001, route-kw-reflex-001
|
||
|
||
── 改进策略规划 ──────────────────────────────────────────
|
||
┌─ 策略 1: 意图歧义:不同技能的关键词/意图描述重叠,导致路由混淆
|
||
│ 总体策略: 短期:添加互斥关键词消歧;中期:启用LLM二次分类;长期:训练专用意图分类模型替代规则匹配
|
||
│
|
||
│ 🟠 [P1] 为易混淆技能添加互斥关键词
|
||
│ 目标模块: configs/skills/*.yaml → intent.disambiguation_keywords
|
||
│ 具体操作: 在技能配置中为容易混淆的技能对添加互斥关键词(disambiguation_keywords),当用户输入同时匹配多个技能时,优先选择包含互斥关键词的技能。
|
||
│ 预期影响: 预计提升精确率 10~25%,减少技能混淆
|
||
│ 工作量: 小
|
||
│ 验证方式: 运行歧义消解回测,验证路由精确率提升
|
||
│
|
||
│ 🟡 [P2] 实现LLM二次分类消歧
|
||
│ 目标模块: src/agentkit/chat/skill_routing.py → Layer 1
|
||
│ 具体操作: 当 Layer 0/1 路由到多个候选技能时,调用 LLM quick_classify 进行二次意图判断,选择最匹配的技能。
|
||
│ 预期影响: 预计提升精确率 15~30%,但增加 ~500ms 延迟和 ~100 tokens
|
||
│ 工作量: 中
|
||
│ 验证方式: 运行歧义消解回测,对比延迟和精确率变化
|
||
│
|
||
└────────────────────────────────────────────────────────────
|
||
|
||
┌─ 策略 2: 复杂度估算偏差:倾向高估复杂度(将简单任务误判为需要多步推理)
|
||
│ 总体策略: 短期:调整启发式规则权重;中期:构建复杂度校准数据集;长期:训练复杂度评估模型替代规则
|
||
│
|
||
│ 🟠 [P1] 优化复杂度估算启发式规则
|
||
│ 目标模块: src/agentkit/chat/skill_routing.py → HeuristicClassifier
|
||
│ 具体操作: 调整 HeuristicClassifier 的复杂度评分权重:增加任务动词(分析/研究/设计)的权重,降低简单问答动词(是什么/多少)的权重。
|
||
│ 预期影响: 预计提升执行模式准确率 10~20%
|
||
│ 工作量: 小
|
||
│ 验证方式: 运行执行模式回测,验证准确率提升
|
||
│
|
||
│ 🟡 [P2] 引入任务复杂度校准数据集
|
||
│ 目标模块: tests/e2e/benchmark_dataset.py
|
||
│ 具体操作: 收集标注了复杂度等级的真实用户查询,构建校准数据集,定期评估和调整复杂度阈值。
|
||
│ 预期影响: 持续提升复杂度判断准确性
|
||
│ 工作量: 中
|
||
│ 验证方式: 每次调整后运行回测,对比前后F1变化
|
||
│
|
||
└────────────────────────────────────────────────────────────
|
||
|
||
┌─ 策略 3: 质量门控阈值过低:任务虽成功完成但输出了错误结果
|
||
│ 总体策略: 短期:增加技能匹配验证;中期:引入输出质量评分模型;长期:实现自动质量回归检测
|
||
│
|
||
│ 🟠 [P1] 增强质量门控的技能匹配验证
|
||
│ 目标模块: src/agentkit/quality/gate.py
|
||
│ 具体操作: 在QualityGate中增加技能匹配验证:检查输出是否与路由到的技能的能力范围一致,如果不一致则触发重试或降级。
|
||
│ 预期影响: 减少错误路由导致的低质量输出
|
||
│ 工作量: 中
|
||
│ 验证方式: 运行质量门控回测,验证错误路由拦截率
|
||
│
|
||
└────────────────────────────────────────────────────────────
|
||
|
||
── L3 输出质量评估 ──────────────────────────────────────────
|
||
评估样本数: 18
|
||
平均质量评分: 4.72/5.0
|
||
评分分布: 1分:0 2分:0 3分:1 4分:3 5分:14
|
||
|
||
样例:
|
||
[route-edge-explicit-001] 评分=5 期望=react_agent 实际=react_agent
|
||
理由: 路由精准匹配用户指定的技能与意图,执行模式完全正确。
|
||
[route-kw-direct-002] 评分=4 期望=direct_agent 实际=direct_agent
|
||
理由: 路由与期望完全一致,direct_chat模式适合处理此类缺乏具体上下文的模糊指令,以便进行澄清或基于历史对话进行总结。
|
||
[route-kw-geo-001] 评分=5 期望=geo_optimizer 实际=geo_optimizer
|
||
理由: 路由精准匹配期望技能,且技能名称完全契合用户优化SEO的意图。
|
||
[route-kw-monitor-001] 评分=5 期望=monitor 实际=monitor
|
||
理由: 实际路由技能与期望技能完全一致,精准匹配用户监测品牌引用变化的意图。
|
||
[semantic-reflex-001] 评分=5 期望=reflexion_agent 实际=reflexion_agent
|
||
理由: 实际路由技能与期望技能完全一致,且反思(reflexion)执行模式完美契合高精度与自我验证的任务需求。
|
||
|
||
── L5 自适应能力 ──────────────────────────────────────────
|
||
测试组数: 10
|
||
平均自适应率: 86.67%
|
||
高自适应(>=80%): 6/10
|
||
|
||
======================================================================== |