213 lines
12 KiB
Markdown
213 lines
12 KiB
Markdown
---
|
||
date: 2026-06-09
|
||
topic: agentkit-capability-matrix
|
||
---
|
||
|
||
## Summary
|
||
|
||
构建企业级 AI Agent 门户,采用内核+插件架构:自主闭环执行引擎作为调度中枢,RAG、智能终端、Computer Use、可视化 Workflow、自进化作为可插拔能力接入,Skill 标准规范作为统一接口。内外统一平台,解决企业"想用 AI Agent 但不会落地"的核心痛点。
|
||
|
||
## Problem Frame
|
||
|
||
企业对 AI Agent 的需求明确但落地困难。当前市场上,低代码平台(Dify/Coze)擅长可视化编排但自主性弱,自主 Agent 框架(AutoGPT/CrewAI)擅长自主规划但集成能力差,Computer Use 类产品(Anthropic/Operator)擅长 UI 自动化但场景窄,编排框架(LangChain/LlamaIndex)擅长工具链但门槛高。企业需要的是一个统一入口,能同时覆盖知识问答、系统操作、复杂任务编排、桌面自动化等全场景,而不是在多个工具间切换。
|
||
|
||
AgentKit 已具备 Skill 系统、ReAct 引擎、Pipeline 编排、RAG 服务、ShellTool 等基础能力,但各能力之间缺乏统一调度中枢,缺少 Computer Use 和智能终端交互,Workflow 不可视化且不支持动态编排,自主闭环执行能力尚未形成,自进化停留在 Prompt 优化层面而非任务经验积累。
|
||
|
||
## Key Decisions
|
||
|
||
**内核+插件架构,而非能力矩阵同步建设**
|
||
自主闭环执行引擎是所有能力的调度中枢,其他能力作为 Skill 插件接入。这避免了 6+1 项能力各自为政的集成问题——自主执行引擎天然就是集成点,每个能力接入后立即可被调用。
|
||
|
||
**计划驱动+人工确认,而非完全自主循环**
|
||
用户给定目标后,Agent 自动生成计划,人工确认后执行。完全自主循环在企业场景下风险过高,计划驱动既保证可控性又保留灵活性。
|
||
|
||
**Workflow 与自主闭环执行作为两种独立编排模式**
|
||
Workflow 是人工设计的固定流程(可视化+动态编排),自主闭环是 Agent 动态生成的流程。两者独立使用,互不替代,满足不同场景需求。
|
||
|
||
**Computer Use 调用第三方 API**
|
||
调用第三方 Computer Use API(如 Anthropic),最快实现,依赖外部服务但避免自研视觉识别的可靠性问题。
|
||
|
||
**Vue3 重构整体 UI 并集成 Workflow 编辑器**
|
||
现有 Web UI 是纯 HTML,用 Vue3 重构整体 UI 并集成可视化 Workflow 编辑器,统一技术栈。
|
||
|
||
**自进化从 Prompt 优化升级为任务经验积累**
|
||
现有 evolution 模块聚焦 Prompt 优化(Reflector/PromptOptimizer/ABTester),新增任务经验积累能力:记住错误避免重犯、总结正确路径、发现更优解时更新经验。两者并存,服务不同目的。
|
||
|
||
**Skill 标准规范+注册调度,而非 Skill 市场**
|
||
定义 Skill 的标准接口和规范,任何人都按规范开发 Skill,平台负责注册和调度。不做社区市场,降低运营复杂度。
|
||
|
||
## Actors
|
||
|
||
- A1. **企业开发者** — 使用 AgentKit SDK/框架构建 Agent 应用的技术人员,通过 YAML 配置和 Python API 使用 7 项能力
|
||
- A2. **企业终端用户** — 通过 AgentKit 门户直接使用 Agent 完成工作的非技术人员,给定目标获取结果
|
||
- A3. **AgentKit 平台** — 自主闭环执行引擎,作为调度中枢协调 7 项能力
|
||
- A4. **企业系统** — ERP/CRM/OA 等企业后台系统,Agent 通过 API 或 Computer Use 操作
|
||
|
||
## Requirements
|
||
|
||
### 自主闭环执行引擎(内核)
|
||
|
||
- R1. 用户给定自然语言目标后,Agent 自动生成结构化执行计划,包含任务拆解、依赖关系、预估步骤和并行度识别
|
||
- R2. 执行计划需经人工确认后方可执行,用户可修改计划、调整步骤顺序、增删步骤
|
||
- R3. 执行过程中支持自动并行——当识别到多个步骤无依赖关系时,自动调度多个 Agent 并行执行
|
||
- R4. 执行过程遵循 分析→计划→执行→检查→复盘→总结 的闭环框架,每步的具体内容由 Agent 动态决定
|
||
- R5. 检查环节发现问题时,Agent 可自动重试、调整计划或请求人工介入,而非直接失败
|
||
- R6. 复盘环节将执行经验写入经验库,供后续任务参考
|
||
|
||
### Skill 标准规范与注册调度
|
||
|
||
- R7. 定义 Skill 标准接口规范,包含元数据(名称/描述/版本/作者)、输入输出 Schema、依赖声明、质量门禁配置
|
||
- R8. Skill 注册中心支持动态注册、发现、版本管理和能力查询
|
||
- R9. 内置 Skill 加载器支持从 YAML、Python 函数、Markdown 文件加载 Skill
|
||
- R10. RAG、智能终端、Computer Use 等能力均以 Skill 插件形式注册,可被自主执行引擎和其他 Skill 调用
|
||
|
||
### 知识库与 RAG
|
||
|
||
- R11. 支持本地文档摄取(PDF/Word/网页/Markdown 等),自动分块、向量化、索引
|
||
- R12. 支持对接外部知识库系统(飞书知识库、Confluence、企业 Wiki 等),通过标准适配器统一检索
|
||
- R13. 用户可在任务级别指定信息源——选择使用哪些知识库或文档集合,支持多源混合检索
|
||
- R14. RAG 检索结果包含来源追溯,用户可验证信息出处
|
||
|
||
### 智能终端交互
|
||
|
||
- R15. Agent 能理解终端命令输出,根据输出内容决定下一步操作,而非仅执行预设命令
|
||
- R16. 支持交互式命令的自动应答——当命令等待用户输入时,Agent 根据上下文自动提供输入
|
||
- R17. 维护终端会话状态,跨命令保持工作目录、环境变量、进程状态
|
||
- R18. 安全控制:危险操作需人工确认,支持操作审计日志
|
||
|
||
### Computer Use
|
||
|
||
- R19. 集成第三方 Computer Use API(如 Anthropic),支持截屏识别 UI 元素和模拟用户操作
|
||
- R20. 支持多步骤 UI 操作流程,Agent 根据每步结果决定下一步操作
|
||
- R21. 当第三方 API 不可用或操作失败时,自动降级到 API/CLI 方式(如有可用),或请求人工介入
|
||
- R22. 操作过程可录制回放,支持人工审核和纠错
|
||
|
||
### 可视化 Workflow
|
||
|
||
- R24. 提供可视化拖拽编排界面,用户可通过拖拽节点构建 Workflow
|
||
- R25. 支持条件分支、循环、并行执行、子流程调用等动态编排能力
|
||
- R26. 支持人工审批节点——Workflow 执行到审批节点时暂停,等待人工确认后继续
|
||
- R27. Workflow 可引用已注册的 Skill 作为节点,Skill 更新后 Workflow 自动使用最新版本
|
||
- R28. 支持运行时动态调整——执行中可根据条件动态增删节点或切换分支
|
||
|
||
### 自进化(任务经验积累)
|
||
|
||
- R29. 每次任务完成后,Agent 自动总结执行经验:成功路径、失败原因、耗时分布
|
||
- R30. 经验库按任务类型组织,新任务启动时自动检索相关经验作为参考
|
||
- R31. 当发现更优执行路径时(如更少的步骤、更高的成功率),自动更新经验库中的推荐路径
|
||
- R32. 错误经验标记为避坑指南,后续任务遇到类似场景时自动预警
|
||
- R33. 经验积累效果可量化——展示任务完成率、平均耗时、重试率等指标的变化趋势
|
||
|
||
### 企业门户集成
|
||
|
||
- R34. 统一入口:终端用户通过一个对话界面即可使用全部 7 项能力,无需切换工具
|
||
- R35. 开发者入口:提供 SDK 和 API,开发者可将 AgentKit 集成到自己的应用中
|
||
- R36. 支持接入企业系统获取操作权限和数据,通过标准适配器对接 ERP/CRM/OA 等
|
||
|
||
## Key Flows
|
||
|
||
- F1. 目标驱动的复杂任务
|
||
- **Trigger:** 用户输入自然语言目标(如"分析竞品并生成优化方案")
|
||
- **Actors:** A2, A3
|
||
- **Steps:**
|
||
1. Agent 分析目标,识别所需能力和信息源
|
||
2. 生成结构化执行计划,标注并行步骤
|
||
3. 用户确认或修改计划
|
||
4. Agent 按计划执行,并行步骤自动调度多 Agent
|
||
5. 检查环节验证每步产出,发现问题自动调整
|
||
6. 复盘总结,经验写入经验库
|
||
7. 输出最终结果
|
||
- **Covered by:** R1, R2, R3, R4, R5, R6
|
||
|
||
- F2. 知识库问答+系统操作
|
||
- **Trigger:** 用户提问涉及企业知识或需操作企业系统
|
||
- **Actors:** A2, A3, A4
|
||
- **Steps:**
|
||
1. Agent 识别问题需要知识检索还是系统操作
|
||
2. 检索指定知识库获取相关信息(R11-R14)
|
||
3. 如需操作企业系统,通过 Computer Use API 或 API/CLI 执行(R19-R21)
|
||
4. 组合信息生成回答或确认操作结果
|
||
- **Covered by:** R11, R12, R13, R14, R19, R22
|
||
|
||
- F3. 可视化 Workflow 编排
|
||
- **Trigger:** 用户需要设计可复用的固定流程
|
||
- **Actors:** A1, A2
|
||
- **Steps:**
|
||
1. 用户在可视化界面拖拽节点构建 Workflow
|
||
2. 配置条件分支、审批节点、并行执行等
|
||
3. 引用已注册 Skill 作为节点
|
||
4. 保存并发布 Workflow
|
||
5. 触发执行,运行时可动态调整
|
||
- **Covered by:** R24, R25, R26, R27, R28
|
||
|
||
## Acceptance Examples
|
||
|
||
- AE1. **目标驱动任务——并行执行**
|
||
- **Covers R3, R5.**
|
||
- **Given:** 用户目标"调研 3 个竞品的 SEO 策略并生成对比报告"
|
||
- **When:** Agent 生成计划后识别 3 个竞品调研无依赖关系
|
||
- **Then:** 自动调度 3 个 Agent 并行调研,汇总后生成对比报告
|
||
|
||
- AE2. **Computer Use 降级**
|
||
- **Covers R21.**
|
||
- **Given:** Agent 尝试通过第三方 Computer Use API 在企业 OA 系统提交审批
|
||
- **When:** API 不可用或操作失败
|
||
- **Then:** 自动降级到 OA 系统 API 提交审批,或暂停请求人工介入
|
||
|
||
- AE3. **经验积累与避坑**
|
||
- **Covers R30, R32.**
|
||
- **Given:** 经验库中记录"调用 X 系统 API 在高峰期超时率 60%"
|
||
- **When:** 新任务需要调用 X 系统 API
|
||
- **Then:** Agent 自动预警并建议错峰调用或使用重试策略
|
||
|
||
- AE4. **知识库指定信息源**
|
||
- **Covers R13.**
|
||
- **Given:** 用户提问"我们公司对数据导出有什么合规要求"
|
||
- **When:** 用户指定信息源为"合规文档库"和"法务知识库"
|
||
- **Then:** Agent 仅从指定知识库检索,不检索无关信息源
|
||
|
||
- AE5. **Workflow 人工审批**
|
||
- **Covers R26.**
|
||
- **Given:** Workflow 包含"发送客户报价"步骤
|
||
- **When:** 执行到该步骤
|
||
- **Then:** Workflow 暂停,通知审批人确认,确认后继续执行
|
||
|
||
## Success Criteria
|
||
|
||
- SC1. 一个完整企业场景(目标驱动的复杂任务)端到端走通,覆盖自主闭环+RAG+Skill 调度
|
||
- SC2. 开发者可用 10-20 行 YAML 配置定义一个 Skill 并注册到平台
|
||
- SC3. 终端用户通过一个对话界面完成知识问答、系统操作、复杂任务编排,无需切换工具
|
||
- SC4. Computer Use 在 3 个以上企业 Web 系统上完成基本操作(登录、填表、提交)
|
||
- SC5. 自进化使同类任务的平均完成时间随执行次数递减
|
||
|
||
## Scope Boundaries
|
||
|
||
**Deferred for later:**
|
||
- Skill 市场/社区——先做标准规范和注册调度,社区生态后续再建
|
||
- 多租户隔离——企业门户隐含需要,但 v1 先做单租户
|
||
- 企业级认证/权限体系——v1 先做基础 API Key 认证
|
||
- 移动端适配——先做 Web 端,移动端后续扩展
|
||
- Workflow 模板市场——先支持自建 Workflow,模板市场后续再建
|
||
|
||
**Outside this product's identity:**
|
||
- LLM 训练/微调平台——AgentKit 使用 LLM,不训练 LLM
|
||
- 数据标注平台——AgentKit 消费数据,不标注数据
|
||
- 低代码应用开发平台——AgentKit 是 Agent 平台,不是通用应用开发平台
|
||
|
||
## Dependencies / Assumptions
|
||
|
||
- D1. Computer Use 依赖第三方 API(如 Anthropic)的可用性和稳定性,需要 API Key 和网络访问
|
||
- D2. 外部知识库对接依赖各系统的 API 开放程度,部分企业系统可能无 API 需通过 Computer Use 操作
|
||
- D3. 自进化的经验积累效果依赖任务执行量,初期经验库为空时效果有限
|
||
- D4. Vue3 重构整体 UI 需要前端开发能力,当前项目后端为主(Python/FastAPI),前端资源可能不足
|
||
|
||
## Outstanding Questions
|
||
|
||
**Resolve Before Planning:**
|
||
- (All resolved — see Key Decisions below)
|
||
|
||
**Deferred to Planning:**
|
||
- OQ1. 经验库的存储和检索方案——向量数据库 vs 结构化存储 vs 混合
|
||
- OQ2. 自主闭环执行引擎与现有 ReAct 引擎的关系——增强还是替换
|
||
- OQ3. 智能终端交互与现有 ShellTool 的关系——增强还是替换
|