fischer-agentkit/test-results/benchmark/benchmark_report.md

5.8 KiB

AgentKit 能力基准测试报告

测试概要

  • 时间: 2026-06-17T15:47:33.591101+00:00
  • 版本: 0.1.0
  • 模式: mock
  • 运行次数: 1
  • 总体准确率: 100.0% ± 0.0%

与行业 Benchmark 对比

Benchmark 测试对象 AgentKit 对应
SWE-bench LLM 代码修复 — (测 LLM 非框架)
ToolBench 工具调用 tool_search 维度
AgentBench Agent 系统 全部维度

维度结果

1. 预处理准确度 (Preprocessing Accuracy) [Mock]

指标
Accuracy 100.0% ± 0.0%
95% CI [79.6%, 100.0%]
Precision 100.0%
Recall 100.0%
F1 100.0%
Latency p50 0.01ms
Latency p95 0.07ms
Latency p99 0.11ms
Consistency 100.0%
Total / Pass / Fail 15 / 15 / 0

按类别分布

类别 用例数 通过 准确率
greeting 4 4 100.0%
tool_query 5 5 100.0%
skill_prefix 3 3 100.0%
complex 3 3 100.0%

按难度分布

难度 用例数 通过 准确率
easy 5 5 100.0%
medium 7 7 100.0%
hard 3 3 100.0%

2. 过拟合检测 (Overfitting Detection) [Mock]

指标
Accuracy 100.0% ± 0.0%
95% CI [56.5%, 100.0%]
Precision 100.0%
Recall 100.0%
F1 100.0%
Latency p50 0.01ms
Latency p95 0.03ms
Latency p99 0.03ms
Consistency 100.0%
Total / Pass / Fail 5 / 5 / 0

按类别分布

类别 用例数 通过 准确率
ip_check 1 1 100.0%
search 1 1 100.0%
greeting 1 1 100.0%
tool_use 1 1 100.0%
complex 1 1 100.0%

按难度分布

难度 用例数 通过 准确率
medium 3 3 100.0%
easy 1 1 100.0%
hard 1 1 100.0%

3. 效率测试 (Efficiency) [Mock]

指标
Accuracy 100.0% ± 0.0%
95% CI [56.5%, 100.0%]
Precision 0.0%
Recall 0.0%
F1 0.0%
Latency p50 0.33ms
Latency p95 0.64ms
Latency p99 0.67ms
Consistency 100.0%
Total / Pass / Fail 5 / 5 / 0

按类别分布

类别 用例数 通过 准确率
preprocess_latency 3 3 100.0%
tool_search_latency 2 2 100.0%

按难度分布

难度 用例数 通过 准确率
easy 2 2 100.0%
medium 3 3 100.0%

4. 工具搜索 (Tool Search) [Mock]

指标
Accuracy 100.0% ± 0.0%
95% CI [72.2%, 100.0%]
Precision 83.3%
Recall 83.3%
F1 83.3%
Latency p50 0.01ms
Latency p95 0.02ms
Latency p99 0.02ms
Consistency 100.0%
Total / Pass / Fail 10 / 10 / 0

按类别分布

类别 用例数 通过 准确率
exact_match 5 5 100.0%
fuzzy_match 2 2 100.0%
no_match 2 2 100.0%
top_k 1 1 100.0%

按难度分布

难度 用例数 通过 准确率
easy 7 7 100.0%
medium 3 3 100.0%

5. 事件模型 (Event Model) [Mock]

指标
Accuracy 100.0% ± 0.0%
95% CI [61.0%, 100.0%]
Precision 0.0%
Recall 0.0%
F1 0.0%
Latency p50 0.05ms
Latency p95 15.87ms
Latency p99 20.08ms
Consistency 100.0%
Total / Pass / Fail 6 / 6 / 0

按类别分布

类别 用例数 通过 准确率
sq_lifecycle 3 3 100.0%
eq_lifecycle 3 3 100.0%

按难度分布

难度 用例数 通过 准确率
easy 6 6 100.0%

6. 规格管理 (Spec Management) [Mock]

指标
Accuracy 100.0% ± 0.0%
95% CI [64.6%, 100.0%]
Precision 0.0%
Recall 0.0%
F1 0.0%
Latency p50 1.94ms
Latency p95 2.94ms
Latency p99 3.25ms
Consistency 100.0%
Total / Pass / Fail 7 / 7 / 0

按类别分布

类别 用例数 通过 准确率
crud 5 5 100.0%
edge 2 2 100.0%

按难度分布

难度 用例数 通过 准确率
easy 6 6 100.0%
medium 1 1 100.0%

7. 验证循环 (Verification Loop) [Mock]

指标
Accuracy 100.0% ± 0.0%
95% CI [56.5%, 100.0%]
Precision 0.0%
Recall 0.0%
F1 0.0%
Latency p50 22.22ms
Latency p95 47.79ms
Latency p99 50.93ms
Consistency 100.0%
Total / Pass / Fail 5 / 5 / 0

按类别分布

类别 用例数 通过 准确率
basic 2 2 100.0%
retry 1 1 100.0%
timeout 1 1 100.0%
multi 1 1 100.0%

按难度分布

难度 用例数 通过 准确率
easy 2 2 100.0%
medium 3 3 100.0%

8. 私董会路由 (Board Meeting Routing) [Mock]

指标
Accuracy 100.0% ± 0.0%
95% CI [82.4%, 100.0%]
Precision 100.0%
Recall 100.0%
F1 100.0%
Latency p50 0.01ms
Latency p95 0.39ms
Latency p99 1.19ms
Consistency 100.0%
Total / Pass / Fail 18 / 18 / 0

按类别分布

类别 用例数 通过 准确率
default_template 3 3 100.0%
explicit_experts 3 3 100.0%
topic_extraction 3 3 100.0%
no_match 3 3 100.0%
name_validation 3 3 100.0%
stop_command 3 3 100.0%

按难度分布

难度 用例数 通过 准确率
easy 11 11 100.0%
medium 7 7 100.0%

问题总结与改进建议

  • 所有维度表现良好,无需特别改进。