fischer-agentkit/docs/brainstorms/2026-06-09-agentkit-capabil.../requirements.md

12 KiB
Raw Blame History

date topic
2026-06-09 agentkit-capability-matrix

Summary

构建企业级 AI Agent 门户,采用内核+插件架构自主闭环执行引擎作为调度中枢RAG、智能终端、Computer Use、可视化 Workflow、自进化作为可插拔能力接入Skill 标准规范作为统一接口。内外统一平台,解决企业"想用 AI Agent 但不会落地"的核心痛点。

Problem Frame

企业对 AI Agent 的需求明确但落地困难。当前市场上低代码平台Dify/Coze擅长可视化编排但自主性弱自主 Agent 框架AutoGPT/CrewAI擅长自主规划但集成能力差Computer Use 类产品Anthropic/Operator擅长 UI 自动化但场景窄编排框架LangChain/LlamaIndex擅长工具链但门槛高。企业需要的是一个统一入口能同时覆盖知识问答、系统操作、复杂任务编排、桌面自动化等全场景而不是在多个工具间切换。

AgentKit 已具备 Skill 系统、ReAct 引擎、Pipeline 编排、RAG 服务、ShellTool 等基础能力,但各能力之间缺乏统一调度中枢,缺少 Computer Use 和智能终端交互Workflow 不可视化且不支持动态编排,自主闭环执行能力尚未形成,自进化停留在 Prompt 优化层面而非任务经验积累。

Key Decisions

内核+插件架构,而非能力矩阵同步建设 自主闭环执行引擎是所有能力的调度中枢,其他能力作为 Skill 插件接入。这避免了 6+1 项能力各自为政的集成问题——自主执行引擎天然就是集成点,每个能力接入后立即可被调用。

计划驱动+人工确认,而非完全自主循环 用户给定目标后Agent 自动生成计划,人工确认后执行。完全自主循环在企业场景下风险过高,计划驱动既保证可控性又保留灵活性。

Workflow 与自主闭环执行作为两种独立编排模式 Workflow 是人工设计的固定流程(可视化+动态编排),自主闭环是 Agent 动态生成的流程。两者独立使用,互不替代,满足不同场景需求。

Computer Use 调用第三方 API 调用第三方 Computer Use API如 Anthropic最快实现依赖外部服务但避免自研视觉识别的可靠性问题。

Vue3 重构整体 UI 并集成 Workflow 编辑器 现有 Web UI 是纯 HTML用 Vue3 重构整体 UI 并集成可视化 Workflow 编辑器,统一技术栈。

自进化从 Prompt 优化升级为任务经验积累 现有 evolution 模块聚焦 Prompt 优化Reflector/PromptOptimizer/ABTester新增任务经验积累能力记住错误避免重犯、总结正确路径、发现更优解时更新经验。两者并存服务不同目的。

Skill 标准规范+注册调度,而非 Skill 市场 定义 Skill 的标准接口和规范,任何人都按规范开发 Skill平台负责注册和调度。不做社区市场降低运营复杂度。

Actors

  • A1. 企业开发者 — 使用 AgentKit SDK/框架构建 Agent 应用的技术人员,通过 YAML 配置和 Python API 使用 7 项能力
  • A2. 企业终端用户 — 通过 AgentKit 门户直接使用 Agent 完成工作的非技术人员,给定目标获取结果
  • A3. AgentKit 平台 — 自主闭环执行引擎,作为调度中枢协调 7 项能力
  • A4. 企业系统 — ERP/CRM/OA 等企业后台系统Agent 通过 API 或 Computer Use 操作

Requirements

自主闭环执行引擎(内核)

  • R1. 用户给定自然语言目标后Agent 自动生成结构化执行计划,包含任务拆解、依赖关系、预估步骤和并行度识别
  • R2. 执行计划需经人工确认后方可执行,用户可修改计划、调整步骤顺序、增删步骤
  • R3. 执行过程中支持自动并行——当识别到多个步骤无依赖关系时,自动调度多个 Agent 并行执行
  • R4. 执行过程遵循 分析→计划→执行→检查→复盘→总结 的闭环框架,每步的具体内容由 Agent 动态决定
  • R5. 检查环节发现问题时Agent 可自动重试、调整计划或请求人工介入,而非直接失败
  • R6. 复盘环节将执行经验写入经验库,供后续任务参考

Skill 标准规范与注册调度

  • R7. 定义 Skill 标准接口规范,包含元数据(名称/描述/版本/作者)、输入输出 Schema、依赖声明、质量门禁配置
  • R8. Skill 注册中心支持动态注册、发现、版本管理和能力查询
  • R9. 内置 Skill 加载器支持从 YAML、Python 函数、Markdown 文件加载 Skill
  • R10. RAG、智能终端、Computer Use 等能力均以 Skill 插件形式注册,可被自主执行引擎和其他 Skill 调用

知识库与 RAG

  • R11. 支持本地文档摄取PDF/Word/网页/Markdown 等),自动分块、向量化、索引
  • R12. 支持对接外部知识库系统飞书知识库、Confluence、企业 Wiki 等),通过标准适配器统一检索
  • R13. 用户可在任务级别指定信息源——选择使用哪些知识库或文档集合,支持多源混合检索
  • R14. RAG 检索结果包含来源追溯,用户可验证信息出处

智能终端交互

  • R15. Agent 能理解终端命令输出,根据输出内容决定下一步操作,而非仅执行预设命令
  • R16. 支持交互式命令的自动应答——当命令等待用户输入时Agent 根据上下文自动提供输入
  • R17. 维护终端会话状态,跨命令保持工作目录、环境变量、进程状态
  • R18. 安全控制:危险操作需人工确认,支持操作审计日志

Computer Use

  • R19. 集成第三方 Computer Use API如 Anthropic支持截屏识别 UI 元素和模拟用户操作
  • R20. 支持多步骤 UI 操作流程Agent 根据每步结果决定下一步操作
  • R21. 当第三方 API 不可用或操作失败时,自动降级到 API/CLI 方式(如有可用),或请求人工介入
  • R22. 操作过程可录制回放,支持人工审核和纠错

可视化 Workflow

  • R24. 提供可视化拖拽编排界面,用户可通过拖拽节点构建 Workflow
  • R25. 支持条件分支、循环、并行执行、子流程调用等动态编排能力
  • R26. 支持人工审批节点——Workflow 执行到审批节点时暂停,等待人工确认后继续
  • R27. Workflow 可引用已注册的 Skill 作为节点Skill 更新后 Workflow 自动使用最新版本
  • R28. 支持运行时动态调整——执行中可根据条件动态增删节点或切换分支

自进化(任务经验积累)

  • R29. 每次任务完成后Agent 自动总结执行经验:成功路径、失败原因、耗时分布
  • R30. 经验库按任务类型组织,新任务启动时自动检索相关经验作为参考
  • R31. 当发现更优执行路径时(如更少的步骤、更高的成功率),自动更新经验库中的推荐路径
  • R32. 错误经验标记为避坑指南,后续任务遇到类似场景时自动预警
  • R33. 经验积累效果可量化——展示任务完成率、平均耗时、重试率等指标的变化趋势

企业门户集成

  • R34. 统一入口:终端用户通过一个对话界面即可使用全部 7 项能力,无需切换工具
  • R35. 开发者入口:提供 SDK 和 API开发者可将 AgentKit 集成到自己的应用中
  • R36. 支持接入企业系统获取操作权限和数据,通过标准适配器对接 ERP/CRM/OA 等

Key Flows

  • F1. 目标驱动的复杂任务

    • Trigger: 用户输入自然语言目标(如"分析竞品并生成优化方案"
    • Actors: A2, A3
    • Steps:
      1. Agent 分析目标,识别所需能力和信息源
      2. 生成结构化执行计划,标注并行步骤
      3. 用户确认或修改计划
      4. Agent 按计划执行,并行步骤自动调度多 Agent
      5. 检查环节验证每步产出,发现问题自动调整
      6. 复盘总结,经验写入经验库
      7. 输出最终结果
    • Covered by: R1, R2, R3, R4, R5, R6
  • F2. 知识库问答+系统操作

    • Trigger: 用户提问涉及企业知识或需操作企业系统
    • Actors: A2, A3, A4
    • Steps:
      1. Agent 识别问题需要知识检索还是系统操作
      2. 检索指定知识库获取相关信息R11-R14
      3. 如需操作企业系统,通过 Computer Use API 或 API/CLI 执行R19-R21
      4. 组合信息生成回答或确认操作结果
    • Covered by: R11, R12, R13, R14, R19, R22
  • F3. 可视化 Workflow 编排

    • Trigger: 用户需要设计可复用的固定流程
    • Actors: A1, A2
    • Steps:
      1. 用户在可视化界面拖拽节点构建 Workflow
      2. 配置条件分支、审批节点、并行执行等
      3. 引用已注册 Skill 作为节点
      4. 保存并发布 Workflow
      5. 触发执行,运行时可动态调整
    • Covered by: R24, R25, R26, R27, R28

Acceptance Examples

  • AE1. 目标驱动任务——并行执行

    • Covers R3, R5.
    • Given: 用户目标"调研 3 个竞品的 SEO 策略并生成对比报告"
    • When: Agent 生成计划后识别 3 个竞品调研无依赖关系
    • Then: 自动调度 3 个 Agent 并行调研,汇总后生成对比报告
  • AE2. Computer Use 降级

    • Covers R21.
    • Given: Agent 尝试通过第三方 Computer Use API 在企业 OA 系统提交审批
    • When: API 不可用或操作失败
    • Then: 自动降级到 OA 系统 API 提交审批,或暂停请求人工介入
  • AE3. 经验积累与避坑

    • Covers R30, R32.
    • Given: 经验库中记录"调用 X 系统 API 在高峰期超时率 60%"
    • When: 新任务需要调用 X 系统 API
    • Then: Agent 自动预警并建议错峰调用或使用重试策略
  • AE4. 知识库指定信息源

    • Covers R13.
    • Given: 用户提问"我们公司对数据导出有什么合规要求"
    • When: 用户指定信息源为"合规文档库"和"法务知识库"
    • Then: Agent 仅从指定知识库检索,不检索无关信息源
  • AE5. Workflow 人工审批

    • Covers R26.
    • Given: Workflow 包含"发送客户报价"步骤
    • When: 执行到该步骤
    • Then: Workflow 暂停,通知审批人确认,确认后继续执行

Success Criteria

  • SC1. 一个完整企业场景(目标驱动的复杂任务)端到端走通,覆盖自主闭环+RAG+Skill 调度
  • SC2. 开发者可用 10-20 行 YAML 配置定义一个 Skill 并注册到平台
  • SC3. 终端用户通过一个对话界面完成知识问答、系统操作、复杂任务编排,无需切换工具
  • SC4. Computer Use 在 3 个以上企业 Web 系统上完成基本操作(登录、填表、提交)
  • SC5. 自进化使同类任务的平均完成时间随执行次数递减

Scope Boundaries

Deferred for later:

  • Skill 市场/社区——先做标准规范和注册调度,社区生态后续再建
  • 多租户隔离——企业门户隐含需要,但 v1 先做单租户
  • 企业级认证/权限体系——v1 先做基础 API Key 认证
  • 移动端适配——先做 Web 端,移动端后续扩展
  • Workflow 模板市场——先支持自建 Workflow模板市场后续再建

Outside this product's identity:

  • LLM 训练/微调平台——AgentKit 使用 LLM不训练 LLM
  • 数据标注平台——AgentKit 消费数据,不标注数据
  • 低代码应用开发平台——AgentKit 是 Agent 平台,不是通用应用开发平台

Dependencies / Assumptions

  • D1. Computer Use 依赖第三方 API如 Anthropic的可用性和稳定性需要 API Key 和网络访问
  • D2. 外部知识库对接依赖各系统的 API 开放程度,部分企业系统可能无 API 需通过 Computer Use 操作
  • D3. 自进化的经验积累效果依赖任务执行量,初期经验库为空时效果有限
  • D4. Vue3 重构整体 UI 需要前端开发能力当前项目后端为主Python/FastAPI前端资源可能不足

Outstanding Questions

Resolve Before Planning:

  • (All resolved — see Key Decisions below)

Deferred to Planning:

  • OQ1. 经验库的存储和检索方案——向量数据库 vs 结构化存储 vs 混合
  • OQ2. 自主闭环执行引擎与现有 ReAct 引擎的关系——增强还是替换
  • OQ3. 智能终端交互与现有 ShellTool 的关系——增强还是替换