---
date: 2026-06-09
topic: agentkit-capability-matrix
---

## Summary

构建企业级 AI Agent 门户，采用内核+插件架构：自主闭环执行引擎作为调度中枢，RAG、智能终端、Computer Use、可视化 Workflow、自进化作为可插拔能力接入，Skill 标准规范作为统一接口。内外统一平台，解决企业"想用 AI Agent 但不会落地"的核心痛点。

## Problem Frame

企业对 AI Agent 的需求明确但落地困难。当前市场上，低代码平台（Dify/Coze）擅长可视化编排但自主性弱，自主 Agent 框架（AutoGPT/CrewAI）擅长自主规划但集成能力差，Computer Use 类产品（Anthropic/Operator）擅长 UI 自动化但场景窄，编排框架（LangChain/LlamaIndex）擅长工具链但门槛高。企业需要的是一个统一入口，能同时覆盖知识问答、系统操作、复杂任务编排、桌面自动化等全场景，而不是在多个工具间切换。

AgentKit 已具备 Skill 系统、ReAct 引擎、Pipeline 编排、RAG 服务、ShellTool 等基础能力，但各能力之间缺乏统一调度中枢，缺少 Computer Use 和智能终端交互，Workflow 不可视化且不支持动态编排，自主闭环执行能力尚未形成，自进化停留在 Prompt 优化层面而非任务经验积累。

## Key Decisions

**内核+插件架构，而非能力矩阵同步建设**
自主闭环执行引擎是所有能力的调度中枢，其他能力作为 Skill 插件接入。这避免了 6+1 项能力各自为政的集成问题——自主执行引擎天然就是集成点，每个能力接入后立即可被调用。

**计划驱动+人工确认，而非完全自主循环**
用户给定目标后，Agent 自动生成计划，人工确认后执行。完全自主循环在企业场景下风险过高，计划驱动既保证可控性又保留灵活性。

**Workflow 与自主闭环执行作为两种独立编排模式**
Workflow 是人工设计的固定流程（可视化+动态编排），自主闭环是 Agent 动态生成的流程。两者独立使用，互不替代，满足不同场景需求。

**Computer Use 调用第三方 API**
调用第三方 Computer Use API（如 Anthropic），最快实现，依赖外部服务但避免自研视觉识别的可靠性问题。

**Vue3 重构整体 UI 并集成 Workflow 编辑器**
现有 Web UI 是纯 HTML，用 Vue3 重构整体 UI 并集成可视化 Workflow 编辑器，统一技术栈。

**自进化从 Prompt 优化升级为任务经验积累**
现有 evolution 模块聚焦 Prompt 优化（Reflector/PromptOptimizer/ABTester），新增任务经验积累能力：记住错误避免重犯、总结正确路径、发现更优解时更新经验。两者并存，服务不同目的。

**Skill 标准规范+注册调度，而非 Skill 市场**
定义 Skill 的标准接口和规范，任何人都按规范开发 Skill，平台负责注册和调度。不做社区市场，降低运营复杂度。

## Actors

- A1. **企业开发者** — 使用 AgentKit SDK/框架构建 Agent 应用的技术人员，通过 YAML 配置和 Python API 使用 7 项能力
- A2. **企业终端用户** — 通过 AgentKit 门户直接使用 Agent 完成工作的非技术人员，给定目标获取结果
- A3. **AgentKit 平台** — 自主闭环执行引擎，作为调度中枢协调 7 项能力
- A4. **企业系统** — ERP/CRM/OA 等企业后台系统，Agent 通过 API 或 Computer Use 操作

## Requirements

### 自主闭环执行引擎（内核）

- R1. 用户给定自然语言目标后，Agent 自动生成结构化执行计划，包含任务拆解、依赖关系、预估步骤和并行度识别
- R2. 执行计划需经人工确认后方可执行，用户可修改计划、调整步骤顺序、增删步骤
- R3. 执行过程中支持自动并行——当识别到多个步骤无依赖关系时，自动调度多个 Agent 并行执行
- R4. 执行过程遵循 分析→计划→执行→检查→复盘→总结 的闭环框架，每步的具体内容由 Agent 动态决定
- R5. 检查环节发现问题时，Agent 可自动重试、调整计划或请求人工介入，而非直接失败
- R6. 复盘环节将执行经验写入经验库，供后续任务参考

### Skill 标准规范与注册调度

- R7. 定义 Skill 标准接口规范，包含元数据（名称/描述/版本/作者）、输入输出 Schema、依赖声明、质量门禁配置
- R8. Skill 注册中心支持动态注册、发现、版本管理和能力查询
- R9. 内置 Skill 加载器支持从 YAML、Python 函数、Markdown 文件加载 Skill
- R10. RAG、智能终端、Computer Use 等能力均以 Skill 插件形式注册，可被自主执行引擎和其他 Skill 调用

### 知识库与 RAG

- R11. 支持本地文档摄取（PDF/Word/网页/Markdown 等），自动分块、向量化、索引
- R12. 支持对接外部知识库系统（飞书知识库、Confluence、企业 Wiki 等），通过标准适配器统一检索
- R13. 用户可在任务级别指定信息源——选择使用哪些知识库或文档集合，支持多源混合检索
- R14. RAG 检索结果包含来源追溯，用户可验证信息出处

### 智能终端交互

- R15. Agent 能理解终端命令输出，根据输出内容决定下一步操作，而非仅执行预设命令
- R16. 支持交互式命令的自动应答——当命令等待用户输入时，Agent 根据上下文自动提供输入
- R17. 维护终端会话状态，跨命令保持工作目录、环境变量、进程状态
- R18. 安全控制：危险操作需人工确认，支持操作审计日志

### Computer Use

- R19. 集成第三方 Computer Use API（如 Anthropic），支持截屏识别 UI 元素和模拟用户操作
- R20. 支持多步骤 UI 操作流程，Agent 根据每步结果决定下一步操作
- R21. 当第三方 API 不可用或操作失败时，自动降级到 API/CLI 方式（如有可用），或请求人工介入
- R22. 操作过程可录制回放，支持人工审核和纠错

### 可视化 Workflow

- R24. 提供可视化拖拽编排界面，用户可通过拖拽节点构建 Workflow
- R25. 支持条件分支、循环、并行执行、子流程调用等动态编排能力
- R26. 支持人工审批节点——Workflow 执行到审批节点时暂停，等待人工确认后继续
- R27. Workflow 可引用已注册的 Skill 作为节点，Skill 更新后 Workflow 自动使用最新版本
- R28. 支持运行时动态调整——执行中可根据条件动态增删节点或切换分支

### 自进化（任务经验积累）

- R29. 每次任务完成后，Agent 自动总结执行经验：成功路径、失败原因、耗时分布
- R30. 经验库按任务类型组织，新任务启动时自动检索相关经验作为参考
- R31. 当发现更优执行路径时（如更少的步骤、更高的成功率），自动更新经验库中的推荐路径
- R32. 错误经验标记为避坑指南，后续任务遇到类似场景时自动预警
- R33. 经验积累效果可量化——展示任务完成率、平均耗时、重试率等指标的变化趋势

### 企业门户集成

- R34. 统一入口：终端用户通过一个对话界面即可使用全部 7 项能力，无需切换工具
- R35. 开发者入口：提供 SDK 和 API，开发者可将 AgentKit 集成到自己的应用中
- R36. 支持接入企业系统获取操作权限和数据，通过标准适配器对接 ERP/CRM/OA 等

## Key Flows

- F1. 目标驱动的复杂任务
  - **Trigger:** 用户输入自然语言目标（如"分析竞品并生成优化方案"）
  - **Actors:** A2, A3
  - **Steps:**
    1. Agent 分析目标，识别所需能力和信息源
    2. 生成结构化执行计划，标注并行步骤
    3. 用户确认或修改计划
    4. Agent 按计划执行，并行步骤自动调度多 Agent
    5. 检查环节验证每步产出，发现问题自动调整
    6. 复盘总结，经验写入经验库
    7. 输出最终结果
  - **Covered by:** R1, R2, R3, R4, R5, R6

- F2. 知识库问答+系统操作
  - **Trigger:** 用户提问涉及企业知识或需操作企业系统
  - **Actors:** A2, A3, A4
  - **Steps:**
    1. Agent 识别问题需要知识检索还是系统操作
    2. 检索指定知识库获取相关信息（R11-R14）
    3. 如需操作企业系统，通过 Computer Use API 或 API/CLI 执行（R19-R21）
    4. 组合信息生成回答或确认操作结果
  - **Covered by:** R11, R12, R13, R14, R19, R22

- F3. 可视化 Workflow 编排
  - **Trigger:** 用户需要设计可复用的固定流程
  - **Actors:** A1, A2
  - **Steps:**
    1. 用户在可视化界面拖拽节点构建 Workflow
    2. 配置条件分支、审批节点、并行执行等
    3. 引用已注册 Skill 作为节点
    4. 保存并发布 Workflow
    5. 触发执行，运行时可动态调整
  - **Covered by:** R24, R25, R26, R27, R28

## Acceptance Examples

- AE1. **目标驱动任务——并行执行**
  - **Covers R3, R5.**
  - **Given:** 用户目标"调研 3 个竞品的 SEO 策略并生成对比报告"
  - **When:** Agent 生成计划后识别 3 个竞品调研无依赖关系
  - **Then:** 自动调度 3 个 Agent 并行调研，汇总后生成对比报告

- AE2. **Computer Use 降级**
  - **Covers R21.**
  - **Given:** Agent 尝试通过第三方 Computer Use API 在企业 OA 系统提交审批
  - **When:** API 不可用或操作失败
  - **Then:** 自动降级到 OA 系统 API 提交审批，或暂停请求人工介入

- AE3. **经验积累与避坑**
  - **Covers R30, R32.**
  - **Given:** 经验库中记录"调用 X 系统 API 在高峰期超时率 60%"
  - **When:** 新任务需要调用 X 系统 API
  - **Then:** Agent 自动预警并建议错峰调用或使用重试策略

- AE4. **知识库指定信息源**
  - **Covers R13.**
  - **Given:** 用户提问"我们公司对数据导出有什么合规要求"
  - **When:** 用户指定信息源为"合规文档库"和"法务知识库"
  - **Then:** Agent 仅从指定知识库检索，不检索无关信息源

- AE5. **Workflow 人工审批**
  - **Covers R26.**
  - **Given:** Workflow 包含"发送客户报价"步骤
  - **When:** 执行到该步骤
  - **Then:** Workflow 暂停，通知审批人确认，确认后继续执行

## Success Criteria

- SC1. 一个完整企业场景（目标驱动的复杂任务）端到端走通，覆盖自主闭环+RAG+Skill 调度
- SC2. 开发者可用 10-20 行 YAML 配置定义一个 Skill 并注册到平台
- SC3. 终端用户通过一个对话界面完成知识问答、系统操作、复杂任务编排，无需切换工具
- SC4. Computer Use 在 3 个以上企业 Web 系统上完成基本操作（登录、填表、提交）
- SC5. 自进化使同类任务的平均完成时间随执行次数递减

## Scope Boundaries

**Deferred for later:**
- Skill 市场/社区——先做标准规范和注册调度，社区生态后续再建
- 多租户隔离——企业门户隐含需要，但 v1 先做单租户
- 企业级认证/权限体系——v1 先做基础 API Key 认证
- 移动端适配——先做 Web 端，移动端后续扩展
- Workflow 模板市场——先支持自建 Workflow，模板市场后续再建

**Outside this product's identity:**
- LLM 训练/微调平台——AgentKit 使用 LLM，不训练 LLM
- 数据标注平台——AgentKit 消费数据，不标注数据
- 低代码应用开发平台——AgentKit 是 Agent 平台，不是通用应用开发平台

## Dependencies / Assumptions

- D1. Computer Use 依赖第三方 API（如 Anthropic）的可用性和稳定性，需要 API Key 和网络访问
- D2. 外部知识库对接依赖各系统的 API 开放程度，部分企业系统可能无 API 需通过 Computer Use 操作
- D3. 自进化的经验积累效果依赖任务执行量，初期经验库为空时效果有限
- D4. Vue3 重构整体 UI 需要前端开发能力，当前项目后端为主（Python/FastAPI），前端资源可能不足

## Outstanding Questions

**Resolve Before Planning:**
- (All resolved — see Key Decisions below)

**Deferred to Planning:**
- OQ1. 经验库的存储和检索方案——向量数据库 vs 结构化存储 vs 混合
- OQ2. 自主闭环执行引擎与现有 ReAct 引擎的关系——增强还是替换
- OQ3. 智能终端交互与现有 ShellTool 的关系——增强还是替换