AgentKit 能力基准测试报告
测试概要
- 时间: 2026-06-20T03:18:35.937935+00:00
- 版本: 0.1.0
- 模式: llm
- 运行次数: 1
- 总体准确率: 60.0% ± 0.0%
与行业 Benchmark 对比
| Benchmark |
测试对象 |
AgentKit 对应 |
| SWE-bench |
LLM 代码修复 |
— (测 LLM 非框架) |
| ToolBench |
工具调用 |
tool_search 维度 |
| AgentBench |
Agent 系统 |
全部维度 |
维度结果
9. LLM 推理能力 (LLM Reasoning) [LLM]
| 指标 |
值 |
| Accuracy |
60.0% ± 0.0% |
| 95% CI |
[23.1%, 88.2%] |
| Precision |
0.0% |
| Recall |
0.0% |
| F1 |
0.0% |
| Latency p50 |
35309.32ms |
| Latency p95 |
41704.39ms |
| Latency p99 |
42044.76ms |
| Consistency |
100.0% |
| Total / Pass / Fail |
5 / 3 / 2 |
按类别分布
| 类别 |
用例数 |
通过 |
准确率 |
| intent_understanding |
1 |
0 |
0.0% |
| tool_selection |
1 |
1 |
100.0% |
| multi_step |
1 |
1 |
100.0% |
| code_generation |
1 |
0 |
0.0% |
| error_recovery |
1 |
1 |
100.0% |
按难度分布
| 难度 |
用例数 |
通过 |
准确率 |
| easy |
1 |
0 |
0.0% |
| medium |
2 |
1 |
50.0% |
| hard |
2 |
2 |
100.0% |
失败用例分析
| 用例 ID |
类别 |
难度 |
期望 |
实际 |
根因 |
| llm-001 |
intent_understanding |
easy |
react |
timeout |
timeout |
| llm-004 |
code_generation |
medium |
react |
timeout |
timeout |
问题总结与改进建议
- llm_reasoning: 准确率 60.0% 低于 90%,建议检查失败用例并优化
- llm_reasoning: P95 延迟 41704.39ms 较高,建议优化性能