--- date: 2026-06-09 topic: agentkit-capability-matrix --- ## Summary 构建企业级 AI Agent 门户,采用内核+插件架构:自主闭环执行引擎作为调度中枢,RAG、智能终端、Computer Use、可视化 Workflow、自进化作为可插拔能力接入,Skill 标准规范作为统一接口。内外统一平台,解决企业"想用 AI Agent 但不会落地"的核心痛点。 ## Problem Frame 企业对 AI Agent 的需求明确但落地困难。当前市场上,低代码平台(Dify/Coze)擅长可视化编排但自主性弱,自主 Agent 框架(AutoGPT/CrewAI)擅长自主规划但集成能力差,Computer Use 类产品(Anthropic/Operator)擅长 UI 自动化但场景窄,编排框架(LangChain/LlamaIndex)擅长工具链但门槛高。企业需要的是一个统一入口,能同时覆盖知识问答、系统操作、复杂任务编排、桌面自动化等全场景,而不是在多个工具间切换。 AgentKit 已具备 Skill 系统、ReAct 引擎、Pipeline 编排、RAG 服务、ShellTool 等基础能力,但各能力之间缺乏统一调度中枢,缺少 Computer Use 和智能终端交互,Workflow 不可视化且不支持动态编排,自主闭环执行能力尚未形成,自进化停留在 Prompt 优化层面而非任务经验积累。 ## Key Decisions **内核+插件架构,而非能力矩阵同步建设** 自主闭环执行引擎是所有能力的调度中枢,其他能力作为 Skill 插件接入。这避免了 6+1 项能力各自为政的集成问题——自主执行引擎天然就是集成点,每个能力接入后立即可被调用。 **计划驱动+人工确认,而非完全自主循环** 用户给定目标后,Agent 自动生成计划,人工确认后执行。完全自主循环在企业场景下风险过高,计划驱动既保证可控性又保留灵活性。 **Workflow 与自主闭环执行作为两种独立编排模式** Workflow 是人工设计的固定流程(可视化+动态编排),自主闭环是 Agent 动态生成的流程。两者独立使用,互不替代,满足不同场景需求。 **Computer Use 调用第三方 API** 调用第三方 Computer Use API(如 Anthropic),最快实现,依赖外部服务但避免自研视觉识别的可靠性问题。 **Vue3 重构整体 UI 并集成 Workflow 编辑器** 现有 Web UI 是纯 HTML,用 Vue3 重构整体 UI 并集成可视化 Workflow 编辑器,统一技术栈。 **自进化从 Prompt 优化升级为任务经验积累** 现有 evolution 模块聚焦 Prompt 优化(Reflector/PromptOptimizer/ABTester),新增任务经验积累能力:记住错误避免重犯、总结正确路径、发现更优解时更新经验。两者并存,服务不同目的。 **Skill 标准规范+注册调度,而非 Skill 市场** 定义 Skill 的标准接口和规范,任何人都按规范开发 Skill,平台负责注册和调度。不做社区市场,降低运营复杂度。 ## Actors - A1. **企业开发者** — 使用 AgentKit SDK/框架构建 Agent 应用的技术人员,通过 YAML 配置和 Python API 使用 7 项能力 - A2. **企业终端用户** — 通过 AgentKit 门户直接使用 Agent 完成工作的非技术人员,给定目标获取结果 - A3. **AgentKit 平台** — 自主闭环执行引擎,作为调度中枢协调 7 项能力 - A4. **企业系统** — ERP/CRM/OA 等企业后台系统,Agent 通过 API 或 Computer Use 操作 ## Requirements ### 自主闭环执行引擎(内核) - R1. 用户给定自然语言目标后,Agent 自动生成结构化执行计划,包含任务拆解、依赖关系、预估步骤和并行度识别 - R2. 执行计划需经人工确认后方可执行,用户可修改计划、调整步骤顺序、增删步骤 - R3. 执行过程中支持自动并行——当识别到多个步骤无依赖关系时,自动调度多个 Agent 并行执行 - R4. 执行过程遵循 分析→计划→执行→检查→复盘→总结 的闭环框架,每步的具体内容由 Agent 动态决定 - R5. 检查环节发现问题时,Agent 可自动重试、调整计划或请求人工介入,而非直接失败 - R6. 复盘环节将执行经验写入经验库,供后续任务参考 ### Skill 标准规范与注册调度 - R7. 定义 Skill 标准接口规范,包含元数据(名称/描述/版本/作者)、输入输出 Schema、依赖声明、质量门禁配置 - R8. Skill 注册中心支持动态注册、发现、版本管理和能力查询 - R9. 内置 Skill 加载器支持从 YAML、Python 函数、Markdown 文件加载 Skill - R10. RAG、智能终端、Computer Use 等能力均以 Skill 插件形式注册,可被自主执行引擎和其他 Skill 调用 ### 知识库与 RAG - R11. 支持本地文档摄取(PDF/Word/网页/Markdown 等),自动分块、向量化、索引 - R12. 支持对接外部知识库系统(飞书知识库、Confluence、企业 Wiki 等),通过标准适配器统一检索 - R13. 用户可在任务级别指定信息源——选择使用哪些知识库或文档集合,支持多源混合检索 - R14. RAG 检索结果包含来源追溯,用户可验证信息出处 ### 智能终端交互 - R15. Agent 能理解终端命令输出,根据输出内容决定下一步操作,而非仅执行预设命令 - R16. 支持交互式命令的自动应答——当命令等待用户输入时,Agent 根据上下文自动提供输入 - R17. 维护终端会话状态,跨命令保持工作目录、环境变量、进程状态 - R18. 安全控制:危险操作需人工确认,支持操作审计日志 ### Computer Use - R19. 集成第三方 Computer Use API(如 Anthropic),支持截屏识别 UI 元素和模拟用户操作 - R20. 支持多步骤 UI 操作流程,Agent 根据每步结果决定下一步操作 - R21. 当第三方 API 不可用或操作失败时,自动降级到 API/CLI 方式(如有可用),或请求人工介入 - R22. 操作过程可录制回放,支持人工审核和纠错 ### 可视化 Workflow - R24. 提供可视化拖拽编排界面,用户可通过拖拽节点构建 Workflow - R25. 支持条件分支、循环、并行执行、子流程调用等动态编排能力 - R26. 支持人工审批节点——Workflow 执行到审批节点时暂停,等待人工确认后继续 - R27. Workflow 可引用已注册的 Skill 作为节点,Skill 更新后 Workflow 自动使用最新版本 - R28. 支持运行时动态调整——执行中可根据条件动态增删节点或切换分支 ### 自进化(任务经验积累) - R29. 每次任务完成后,Agent 自动总结执行经验:成功路径、失败原因、耗时分布 - R30. 经验库按任务类型组织,新任务启动时自动检索相关经验作为参考 - R31. 当发现更优执行路径时(如更少的步骤、更高的成功率),自动更新经验库中的推荐路径 - R32. 错误经验标记为避坑指南,后续任务遇到类似场景时自动预警 - R33. 经验积累效果可量化——展示任务完成率、平均耗时、重试率等指标的变化趋势 ### 企业门户集成 - R34. 统一入口:终端用户通过一个对话界面即可使用全部 7 项能力,无需切换工具 - R35. 开发者入口:提供 SDK 和 API,开发者可将 AgentKit 集成到自己的应用中 - R36. 支持接入企业系统获取操作权限和数据,通过标准适配器对接 ERP/CRM/OA 等 ## Key Flows - F1. 目标驱动的复杂任务 - **Trigger:** 用户输入自然语言目标(如"分析竞品并生成优化方案") - **Actors:** A2, A3 - **Steps:** 1. Agent 分析目标,识别所需能力和信息源 2. 生成结构化执行计划,标注并行步骤 3. 用户确认或修改计划 4. Agent 按计划执行,并行步骤自动调度多 Agent 5. 检查环节验证每步产出,发现问题自动调整 6. 复盘总结,经验写入经验库 7. 输出最终结果 - **Covered by:** R1, R2, R3, R4, R5, R6 - F2. 知识库问答+系统操作 - **Trigger:** 用户提问涉及企业知识或需操作企业系统 - **Actors:** A2, A3, A4 - **Steps:** 1. Agent 识别问题需要知识检索还是系统操作 2. 检索指定知识库获取相关信息(R11-R14) 3. 如需操作企业系统,通过 Computer Use API 或 API/CLI 执行(R19-R21) 4. 组合信息生成回答或确认操作结果 - **Covered by:** R11, R12, R13, R14, R19, R22 - F3. 可视化 Workflow 编排 - **Trigger:** 用户需要设计可复用的固定流程 - **Actors:** A1, A2 - **Steps:** 1. 用户在可视化界面拖拽节点构建 Workflow 2. 配置条件分支、审批节点、并行执行等 3. 引用已注册 Skill 作为节点 4. 保存并发布 Workflow 5. 触发执行,运行时可动态调整 - **Covered by:** R24, R25, R26, R27, R28 ## Acceptance Examples - AE1. **目标驱动任务——并行执行** - **Covers R3, R5.** - **Given:** 用户目标"调研 3 个竞品的 SEO 策略并生成对比报告" - **When:** Agent 生成计划后识别 3 个竞品调研无依赖关系 - **Then:** 自动调度 3 个 Agent 并行调研,汇总后生成对比报告 - AE2. **Computer Use 降级** - **Covers R21.** - **Given:** Agent 尝试通过第三方 Computer Use API 在企业 OA 系统提交审批 - **When:** API 不可用或操作失败 - **Then:** 自动降级到 OA 系统 API 提交审批,或暂停请求人工介入 - AE3. **经验积累与避坑** - **Covers R30, R32.** - **Given:** 经验库中记录"调用 X 系统 API 在高峰期超时率 60%" - **When:** 新任务需要调用 X 系统 API - **Then:** Agent 自动预警并建议错峰调用或使用重试策略 - AE4. **知识库指定信息源** - **Covers R13.** - **Given:** 用户提问"我们公司对数据导出有什么合规要求" - **When:** 用户指定信息源为"合规文档库"和"法务知识库" - **Then:** Agent 仅从指定知识库检索,不检索无关信息源 - AE5. **Workflow 人工审批** - **Covers R26.** - **Given:** Workflow 包含"发送客户报价"步骤 - **When:** 执行到该步骤 - **Then:** Workflow 暂停,通知审批人确认,确认后继续执行 ## Success Criteria - SC1. 一个完整企业场景(目标驱动的复杂任务)端到端走通,覆盖自主闭环+RAG+Skill 调度 - SC2. 开发者可用 10-20 行 YAML 配置定义一个 Skill 并注册到平台 - SC3. 终端用户通过一个对话界面完成知识问答、系统操作、复杂任务编排,无需切换工具 - SC4. Computer Use 在 3 个以上企业 Web 系统上完成基本操作(登录、填表、提交) - SC5. 自进化使同类任务的平均完成时间随执行次数递减 ## Scope Boundaries **Deferred for later:** - Skill 市场/社区——先做标准规范和注册调度,社区生态后续再建 - 多租户隔离——企业门户隐含需要,但 v1 先做单租户 - 企业级认证/权限体系——v1 先做基础 API Key 认证 - 移动端适配——先做 Web 端,移动端后续扩展 - Workflow 模板市场——先支持自建 Workflow,模板市场后续再建 **Outside this product's identity:** - LLM 训练/微调平台——AgentKit 使用 LLM,不训练 LLM - 数据标注平台——AgentKit 消费数据,不标注数据 - 低代码应用开发平台——AgentKit 是 Agent 平台,不是通用应用开发平台 ## Dependencies / Assumptions - D1. Computer Use 依赖第三方 API(如 Anthropic)的可用性和稳定性,需要 API Key 和网络访问 - D2. 外部知识库对接依赖各系统的 API 开放程度,部分企业系统可能无 API 需通过 Computer Use 操作 - D3. 自进化的经验积累效果依赖任务执行量,初期经验库为空时效果有限 - D4. Vue3 重构整体 UI 需要前端开发能力,当前项目后端为主(Python/FastAPI),前端资源可能不足 ## Outstanding Questions **Resolve Before Planning:** - (All resolved — see Key Decisions below) **Deferred to Planning:** - OQ1. 经验库的存储和检索方案——向量数据库 vs 结构化存储 vs 混合 - OQ2. 自主闭环执行引擎与现有 ReAct 引擎的关系——增强还是替换 - OQ3. 智能终端交互与现有 ShellTool 的关系——增强还是替换