# AgentKit 能力基准测试报告 ## 测试概要 - 时间: 2026-06-20T11:05:39.446588+00:00 - 版本: 0.1.0 - 模式: llm - 运行次数: 3 - 总体准确率: 93.3% ± 0.0% ## 与行业 Benchmark 对比 | Benchmark | 测试对象 | AgentKit 对应 | |---|---|---| | SWE-bench | LLM 代码修复 | — (测 LLM 非框架) | | ToolBench | 工具调用 | tool_search 维度 | | AgentBench | Agent 系统 | 全部维度 | ## 维度结果 ### 9. LLM 推理能力 (LLM Reasoning) [LLM] | 指标 | 值 | |---|---| | Accuracy | 93.3% ± 9.4% | | 95% CI | [37.5%, 96.4%] | | Precision | 0.0% | | Recall | 0.0% | | F1 | 0.0% | | Latency p50 | 40798.45ms | | Latency p95 | 56307.93ms | | Latency p99 | 59262.53ms | | Consistency | 100.0% | | Total / Pass / Fail | 5 / 4 / 1 | #### 按类别分布 | 类别 | 用例数 | 通过 | 准确率 | |---|---|---|---| | intent_understanding | 1 | 1 | 100.0% | | tool_selection | 1 | 0 | 0.0% | | multi_step | 1 | 1 | 100.0% | | code_generation | 1 | 1 | 100.0% | | error_recovery | 1 | 1 | 100.0% | #### 按难度分布 | 难度 | 用例数 | 通过 | 准确率 | |---|---|---|---| | easy | 1 | 1 | 100.0% | | medium | 2 | 1 | 50.0% | | hard | 2 | 2 | 100.0% | #### 失败用例分析 | 用例 ID | 类别 | 难度 | 期望 | 实际 | 根因 | |---|---|---|---|---|---| | llm-002 | tool_selection | medium | react | timeout | timeout | ## 问题总结与改进建议 - **llm_reasoning**: 准确率 80.0% 低于 90%,建议检查失败用例并优化 - **llm_reasoning**: P95 延迟 56307.93ms 较高,建议优化性能