协作探索 · 共同设计

AI Coding 赋能项目交付
协作流程探索方案

对齐认知,讨论 AI Coding 在项目交付中的协作模式
共同设计试点方案

产品 研发 QA
站点首页 → 工具箱 项目导航
SCROLL
PART 01

背景:行业正在发生什么

AI 编程能力在过去一年发生了质变,不再只是"代码补全",而是能理解完整上下文并生成可运行的业务代码。

30-50%
头部公司报告的效率提升
万行级
AI 可理解的代码库上下文
全行业
Google/MS/字节/阿里都在推进

关键认知:AI 不是要替代任何人,而是在重新定义每个角色的"价值区间"——就像 Excel 没有消灭会计,而是让会计从手工记账升级到了财务分析。我们需要一起探索:在我们的实际场景中,AI 能帮我们做什么,怎么做最稳妥?

PART 02

三条核心原则

在讨论具体方案之前,先对齐三个基本出发点。

1

每个角色都在"升级",不是被"替换"

AI 承担的是重复性、模式化的工作,让每个角色聚焦到更高价值的事情上。

角色AI 承担的部分人聚焦的部分
研发模板代码、CRUD、格式化工作架构决策、系统可靠性、复杂逻辑、性能优化
QA基础测试用例生成、回归执行测试策略设计、探索性测试、质量体系建设
产品文档格式化、一致性检查需求洞察、验收标准定义、交付质量把关
AI 做的是"60 分的活",人做的是把它从 60 分拉到 90 分——这个"拉"的过程,恰恰是每个角色最核心的专业能力体现。
2

信任靠数据建立,不靠承诺

我们会定义清晰的度量指标。任何阶段,如果数据表现不好,我们就调整方案,不强推。推进到下一阶段的前提是:效率有改善 + 质量不劣化。

3

按项目分级,不搞一刀切

不同项目的复杂度和风险差异巨大,AI 的参与深度应该因项目而异。高风险项目始终保持高度审慎,低风险项目可以大胆探索。

PART 03

项目分级体系

项目按「系统复杂度」x「业务风险」分为 L1(绿区)到 L4(红区)四个等级。不同等级采用不同的 AI 参与深度:L1 可端到端,L2/L3 逐步渐进,L4 极度审慎。

METHODOLOGY

完整的分级矩阵、判断标准和演进路径已整理至方法论页面。

查看项目分级详情 →

讨论点

  • 这个分级合理吗?还有哪些维度需要纳入考虑?
  • 各等级 AI 的参与边界是否需要调整?
  • 大家手上的项目分别属于哪个等级?
PART 04

两种协作模式

根据项目等级,选择不同的协作模式:模式 A(Spec 驱动)适用于 L2/L3/L4 项目,产品和研发围绕 Spec 文档协作,随知识库积累分两个阶段演进(探索期两步走 → 成熟期一步生成);模式 B(AI 端到端闭环)适用于 L1 绿区项目,AI 直接端到端生成,研发快速 review 后上线。

METHODOLOGY

完整的模式定义、阶段流程图和对比表已整理至方法论页面。

查看协作模式详情 → 查看完整流程图 →

讨论点

  • 模式 A 当前我们适合从阶段一还是阶段二开始?
  • 哪些类型的项目大家觉得可以直接走模式 B?
  • Spec-PRD 和实施 Spec 的边界划分是否清晰?研发觉得补充的工作量如何?
PART 06

AI 知识库体系

AI 知识库不是一个单一文件,而是一套多层文档体系。它是 AI 理解项目上下文的基础,也是从阶段一演进到阶段二的关键积累。

原来的 AI-CONTEXT.md 只是知识库的一部分。完整的 AI 知识库由五个层次组成,覆盖从编码规范到产品架构的完整上下文。知识库越完善,AI 生成的 Spec 和代码质量越高,人工 review 的工作量越小。

第一层
编码规范层
命名约定、目录结构、禁止做法、代码风格、测试要求、CI 检查规则
研发手动维护
AI-CONTEXT.md
第二层
领域知识层
业务概念定义、领域模型、业务规则、术语表、核心实体关系
产品 + 研发协作
基于历史 PRD 生成
第三层
技术架构层
系统架构图、服务拆分、模块依赖关系、技术栈选型、中间件使用
研发维护
基于代码和文档生成
第四层
技术设计层
历史技术方案、接口设计文档、数据库设计、性能优化方案
研发积累
历史文档沉淀
第五层
产品架构层
产品功能架构图、用户旅程地图、功能模块关系、产品路线图
产品维护
产品文档积累

知识库如何驱动阶段演进

阶段一:知识库建设期
  • 先建立编码规范层(AI-CONTEXT.md)
  • 每次写实施 Spec 时,技术设计文档自动沉淀到技术设计层
  • 产品梳理 Spec-PRD 时,领域知识沉淀到领域知识层
  • 研发补充架构说明,逐步充实技术架构层
阶段二:知识库驱动期
  • AI 生成 Spec 时,自动检索领域知识理解业务背景
  • 自动参考技术架构确定涉及的模块和依赖
  • 基于历史技术设计生成合理的接口方案
  • 遵循编码规范确保方案符合团队约定
  • 结合产品架构理解功能在整体中的定位

各层详细说明

层次核心内容生成/维护方式负责人建设优先级
编码规范 命名约定、目录结构、禁止做法、lint 规则、测试覆盖率要求 研发手动编写,定期更新 研发 TL P0 — 必须先建
领域知识 业务概念、领域模型、实体关系、业务规则、术语表 基于历史 PRD 和 Spec-PRD 用 AI 提取,人工审核 产品 + 研发 P1 — 随 Spec 积累
技术架构 系统架构、服务拆分、模块关系、技术栈、中间件 基于代码仓库和现有设计文档用 AI 生成,研发审核 研发架构师 P1 — 尽早建立
技术设计 历史技术方案、接口设计、DB 设计、性能方案 每次项目的实施 Spec 自动归档 研发 P2 — 自然积累
产品架构 功能架构图、用户旅程、模块关系、路线图 产品梳理文档,定期更新 产品 P2 — 逐步完善

知识库不是一次性工程。编码规范层是启动门槛(P0),其余四层在日常协作中自然积累。关键是建立沉淀机制——每次项目交付后,产出的文档自动归入对应层次,而不是丢在各自的文件夹里遗忘。

讨论点

  • 五层知识库的划分是否合理?是否有遗漏的类型?
  • 编码规范层(AI-CONTEXT.md)的初始版本,研发觉得编写工作量如何?
  • 领域知识和技术架构的 AI 辅助生成,大家觉得可行性如何?
  • 已有的技术设计文档能否直接纳入知识库?格式上需要做什么调整?
PART 07

阶段推进的标准

阶段推进不是时间驱动的,而是数据驱动的。

阶段一 → 阶段二的门槛(探索期 → 成熟期)
AI 知识库编码规范层 + 技术架构层建设完成
领域知识层覆盖主要业务模块
累计完成 ≥ 5 个项目的 Spec-PRD → 实施 Spec 全流程
实施 Spec 质量评审稳定达到 B 级以上
交付周期相比传统 PRD 模式缩短 ≥ 20%
提测缺陷密度不高于历史均值
阶段二内部的渐进标准
AI 一步生成的 Spec 质量稳定达到 B 级以上
研发对 AI 生成技术方案的修改率 ≤ 30%
Code Review 修改率稳定 ≤ 20%
灰度期间无 P0/P1 事故

项目等级与阶段的关系

L1 绿区项目 可从阶段一快速过渡到阶段二,率先验证一步生成模式
L2/L3 黄区项目 阶段一充分验证后,知识库完善的领域可尝试阶段二
L4 红区项目 始终保持阶段一的两步模式,研发深度参与技术设计

讨论点

  • 这些指标门槛是否合理?大家觉得需要调整哪些?
  • 还有哪些指标应该纳入评估?
  • "AI 草稿可用率"怎么定义和度量,大家有什么建议?
PART 05

Spec 文档体系

两种 Spec 文档对应两个阶段,逐步从业务结构化走向技术可执行。

1 Spec-PRD — 结构化需求文档

产品主导输出。在 PRD 基础上进行结构化改造,让文档逻辑完整、定义清晰、AI 可读性高。不深入技术实现细节

业务上下文

背景、目标、核心用户场景、业务规则

产品主导

功能定义

状态流转、核心流程、异常分支、边界条件

产品主导

验收标准

每个功能点的 Given-When-Then 验收条件

产品 + QA

接口语义

业务层面的输入/输出描述、字段含义
不含具体字段类型、错误码等技术细节

产品主导

设计资产

交互稿/视觉稿的链接或截图

设计师提供

技术方案占位

标注"需技术方案补充"的区域,等待研发在实施 Spec 中填充

待研发补充
SPEC-PRD 工具链
📄 PRD vs Spec-PRD 对比示例 🤖 spec-prd-writer 生成技能 🔍 spec-prd-reviewer 评审技能

2 实施 Spec — 技术可执行文档

研发主导,在 Spec-PRD 基础上补充技术设计。是 AI 编码的直接输入,包含完整的技术方案和接口定义。

业务上下文

继承自 Spec-PRD,不变

继承

功能定义 + 验收标准

继承自 Spec-PRD,可能微调

继承

接口契约

完整的字段定义、类型、约束、错误码、请求/响应示例

研发补充

技术方案

影响的技术模块、大致实现方案、数据库设计

研发补充

约束与依赖

现有系统依赖、技术规范、性能/安全要求

研发补充

设计资产

继承自 Spec-PRD,不变

继承
实施 SPEC 工具链
📄 完整实施 Spec 示例 🤖 spec-writer 生成技能 🔍 spec-reviewer 评审技能

两份文档的关系:Spec-PRD 是实施 Spec 的「上游输入」。阶段一中它们是两份独立文档;阶段二中它们合并为一份完整 Spec,由 AI 基于知识库一步生成。

讨论点

  • Spec-PRD 和实施 Spec 的边界划分是否清晰?
  • 产品同学觉得 Spec-PRD 的结构是否足够降低门槛?
  • 研发同学觉得从 Spec-PRD 到实施 Spec 的补充工作量如何评估?
PART 08

质量保障机制

多层防护体系,确保 AI 参与不会降低交付质量和线上可靠性。

1

AI 知识库 — 事前规范

AI 基于知识库(编码规范 + 技术架构 + 领域知识)生成代码,从源头保证质量

2

自动化检查 — 事中拦截

CI/CD 流水线中的 lint、单元测试、集成测试自动执行,不通过不能合并

3

人工 Review — 事中把关

研发做 Code Review,重点关注系统兼容性、安全、性能。所有 AI 生成的代码必须经过人工 review

4

测试验证 — 事后兜底

自动化测试 + QA 探索性测试 + 产品 UAT,多层验证

5

灰度发布 + 监控 — 上线保障

所有变更灰度发布,关键指标异常自动回滚

AI 特有风险和应对

改 A 影响 B
AI 知识库记录模块关联逻辑 + AI 生成影响范围分析供 review
重复造轮子
AI 知识库明确组件库和禁止事项 + Code Review 专项检查
不符合编码规范
AI 知识库编码规范层定义规范 + CI lint 自动拦截
安全漏洞
安全扫描工具集成到 CI + 人工 review 安全检查项
业务逻辑偏差
Spec 中用 Given-When-Then 明确验收标准 + 完善测试覆盖

底线原则:AI 参与的项目,线上质量标准只能更高,不能更低。所有 AI 生成的代码通过与人工代码完全相同的 CI/CD 流程。试点期间加强监控,设置更敏感的告警阈值。一旦出现 AI 引入的线上问题,立即复盘并调整流程。

PART 09

试点方案建议

从近期项目中选一个 L1 级别、有明确交付时间、参与者愿意尝试的项目。

第 1-2 周

准备期

选定试点项目
编写 Spec-PRD 模板
建立 AI 知识库(编码规范层)

第 3-6 周

执行期

按新流程执行
过程中记录数据
收集各角色反馈

第 7 周

复盘期

数据汇总分析
各角色反馈收集
总结经验改进点

第 8 周

决策期

根据数据决定
扩大 / 调整 / 暂停

度量指标

指标度量方法对比基准
交付周期Spec 完成到上线的日历天数同等复杂度历史项目
提测缺陷密度QA 发现的缺陷数 / 功能点数历史均值
AI 草稿可用率被直接采纳的内容占比首次度量,建立基线
Code Review 修改率需修改的代码行数占比首次度量,建立基线
参与者满意度各角色的主观评价问卷调查
PART 10

讨论议题

请大家围绕以下问题展开讨论。

01 项目分级

分级矩阵是否合理?还有哪些维度应该纳入?

02 试点选择

近期有哪些项目适合作为试点?

03 模式选择

试点项目用模式 A 阶段一还是直接模式 B?

04 Spec 标准

Spec 结构是否满足研发和 QA 的需要?

05 AI-CONTEXT.md

方案是否可行?初始版本编写工作量怎么评估?

06 演进标准

各项指标的门槛是否合理?

07 质量保障

防护机制是否足够?还有哪些风险需要覆盖?

08 其他顾虑

还有哪些问题或担忧需要在方案中解决?

附录

各阶段角色职责速览

产品经理
阶段一(探索期)
编写 Spec-PRD(结构化需求)→ 协助研发完善实施 Spec → 验收最终交付
阶段二(成熟期)
基于 PRD 一步生成完整 Spec → 与研发确认技术方案 → UAT 验收
研发
阶段一 — 技术方案设计者
基于 Spec-PRD 补充技术设计 → 生成实施 Spec → Code Review → 维护 AI 知识库
阶段二 — 技术方案评审者
评审 AI 生成的技术方案 → 确认或修正 → Code Review → 维护 AI 知识库
QA
阶段一 — 测试策略设计者
审核验收标准 → 补充测试场景 → 执行测试 → 探索性测试
阶段二 — 质量体系架构师
设计自动化策略 → AI 执行测试 → 聚焦探索性测试和边界验证