AgentKit 能力基准测试报告
测试概要
- 时间: 2026-06-20T11:05:39.446588+00:00
- 版本: 0.1.0
- 模式: llm
- 运行次数: 3
- 总体准确率: 93.3% ± 0.0%
与行业 Benchmark 对比
| Benchmark |
测试对象 |
AgentKit 对应 |
| SWE-bench |
LLM 代码修复 |
— (测 LLM 非框架) |
| ToolBench |
工具调用 |
tool_search 维度 |
| AgentBench |
Agent 系统 |
全部维度 |
维度结果
9. LLM 推理能力 (LLM Reasoning) [LLM]
| 指标 |
值 |
| Accuracy |
93.3% ± 9.4% |
| 95% CI |
[37.5%, 96.4%] |
| Precision |
0.0% |
| Recall |
0.0% |
| F1 |
0.0% |
| Latency p50 |
40798.45ms |
| Latency p95 |
56307.93ms |
| Latency p99 |
59262.53ms |
| Consistency |
100.0% |
| Total / Pass / Fail |
5 / 4 / 1 |
按类别分布
| 类别 |
用例数 |
通过 |
准确率 |
| intent_understanding |
1 |
1 |
100.0% |
| tool_selection |
1 |
0 |
0.0% |
| multi_step |
1 |
1 |
100.0% |
| code_generation |
1 |
1 |
100.0% |
| error_recovery |
1 |
1 |
100.0% |
按难度分布
| 难度 |
用例数 |
通过 |
准确率 |
| easy |
1 |
1 |
100.0% |
| medium |
2 |
1 |
50.0% |
| hard |
2 |
2 |
100.0% |
失败用例分析
| 用例 ID |
类别 |
难度 |
期望 |
实际 |
根因 |
| llm-002 |
tool_selection |
medium |
react |
timeout |
timeout |
问题总结与改进建议
- llm_reasoning: 准确率 80.0% 低于 90%,建议检查失败用例并优化
- llm_reasoning: P95 延迟 56307.93ms 较高,建议优化性能