面向项目中的所有参与者:产品经理、研发、QA、设计师、技术主R。
从项目分级、协作模式、交付流程到质量保障的完整方法论。
不同项目的复杂度和风险差异巨大,AI 的参与深度应该因项目而异。我们按「系统复杂度」×「业务风险」两个维度对项目进行分级。
通过 requirement-router 技能进行 6 维度评分来确定项目等级:
| 评分维度 | 说明 |
|---|---|
| 功能独立性 | 是否可独立部署、不影响其他系统 |
| 业务风险 | 是否涉及资金、用户核心体验 |
| 用户影响 | 影响用户的范围和严重程度 |
| 状态复杂度 | 状态流转是否复杂、是否有跨服务状态同步 |
| 接口复杂度 | 涉及的接口数量和交互模式 |
| 团队规模 | 参与的团队和人员数量 |
| 等级 | AI 参与策略 | 协作模式 |
|---|---|---|
| L1 绿区 | AI 深度参与,可端到端生成代码,人做 review 和验收 | 模式 B(AI 端到端) |
| L2 黄区 | AI 辅助生成草稿,人 review 和补全,逐步扩大 AI 范围 | 模式 A(Spec 驱动) |
| L3 黄区 | AI 辅助生成草稿,人 review 和补全,涉及复杂系统需特别审慎 | 模式 A(Spec 驱动) |
| L4 红区 | AI 仅辅助技术方案和测试用例,核心代码人工编写 | 模式 A(Spec 驱动,极度审慎) |
分级不是固定的。当低等级项目跑通高度 AI 参与模式并积累足够数据后,高等级项目可以逐步提升 AI 参与深度:
根据项目等级,选择不同的协作模式。两种模式各有侧重,核心区别在于 AI 的参与深度和研发的角色定位。
产品和研发围绕 Spec 文档协作,随着 AI 知识库的积累,分两个阶段逐步演进。
初期知识库尚不完善,产品聚焦业务逻辑结构化,研发补充技术设计,分步降低门槛。
Spec-PRD:业务逻辑结构化(功能定义、状态流转、验收标准、异常分支),不含技术实现细节,标注"需技术方案补充"。
| 模块 | 内容 | 负责人 |
|---|---|---|
| 业务上下文 | 背景、目标、核心用户场景、业务规则 | 产品主导 |
| 功能定义 | 状态流转、核心流程、异常分支、边界条件 | 产品主导 |
| 验收标准 | 每个功能点的 Given-When-Then 验收条件 | 产品 + QA |
| 接口语义 | 业务层面的输入/输出描述、字段含义(不含技术细节) | 产品主导 |
| 设计资产 | 交互稿/视觉稿的链接或截图 | 设计师提供 |
| 技术方案占位 | 标注"需技术方案补充"的区域 | 待研发补充 |
实施 Spec:在 Spec-PRD 上补充完整接口契约、技术方案、数据库设计、约束与依赖。形成可直接指导 AI 编码的完整文档。
AI 知识库已沉淀技术架构、领域知识、历史设计方案,产品可直接从 PRD 生成包含技术设计的完整 Spec。
研发角色转变:从"技术设计的编写者"变为"技术方案的评审者"。
| 维度 | 阶段一(探索期) | 阶段二(成熟期) |
|---|---|---|
| Spec 流程 | PRD → Spec-PRD → 实施 Spec(两步) | PRD → 完整 Spec(一步) |
| 技术设计 | 研发手动补充 | AI 基于知识库生成,研发确认 |
| 产品门槛 | 低 — 只需结构化业务逻辑 | 中 — 需理解 AI 生成的技术方案 |
| 知识库依赖 | 低 — 可从零开始 | 高 — 需充分积累 |
从阶段一到阶段二的推进是数据驱动的,需要满足以下门槛:
| 维度 | 标准 |
|---|---|
| 知识库建设 | 编码规范层 + 技术架构层建设完成;领域知识层覆盖主要业务模块 |
| 流程验证 | 累计完成 ≥ 5 个项目的 Spec-PRD → 实施 Spec 全流程 |
| 质量指标 | 实施 Spec 质量评审稳定达到 B 级以上 |
| 效率指标 | 交付周期相比传统 PRD 模式缩短 ≥ 20% |
| 质量底线 | 提测缺陷密度不高于历史均值 |
直接从 AI 端到端开始,限定在低风险低复杂度项目,失败成本可控。产品输出 Spec,AI 生成代码 + 测试 + 部署方案,研发快速 review 后上线。
| 维度 | 模式 A(Spec 驱动) | 模式 B(AI 端到端) |
|---|---|---|
| 适用等级 | L2/L3/L4 | L1 |
| 核心特点 | 人与 AI 协作,分步推进 | AI 主导,人做验收 |
| 研发角色 | 技术设计者/评审者 + 代码审查者 | 快速审查者 |
| QA 角色 | 测试策略设计 + 探索性测试 | 线上验证 + 探索性测试 |
| 产品角色 | Spec 编写 + 交付驱动 | Spec 编写 + UAT 验收 |
一个完整项目的流程分为 8 个阶段(Stage 0 — Stage 7),每个阶段有明确的参与者、产出物和质量门禁。
| 阶段 | 核心活动 | 主导者 | 核心产出 | 质量门禁 |
|---|---|---|---|---|
| 0. 需求路由 | 评估流程 | 产品/技术主R | 路由决策(L1-L4)+ 推荐流程 | 评分完成 |
| 1. 需求定义 | 写 Spec | 产品 | 结构化 Spec + 设计资产 | B级以上 |
| 2. Spec 评审 | 评审+补充 | 产品+研发 | 评审通过的 Spec + 全局契约 | 各角色签字确认 |
| 3. 技术设计 | 生成方案 | 研发 | 技术方案 + AI-CONTEXT.md | 研发团队确认 |
| 4. 开发实现 | AI+人编码 | 研发 | 可运行代码 + 测试 | Code Review 通过 |
| 4.5 一致性审查 | 比对实现与Spec | 研发+产品 | 一致性报告 + 修正 | 一致率 100% |
| 5. 测试验证 | QA测试 | QA | 测试报告 + UAT确认 | 达到交付标准 |
| 6. 上线发布 | 灰度上线 | 研发 | 上线成功 | 灰度指标正常 |
| 7. 复盘改进 | 数据复盘 | 全角色 | 改进报告 + 技能迭代 | 改进动作已落地 |
| 角色 | 具体工作 | 产出 |
|---|---|---|
| 产品经理 | 使用 requirement-router 技能评估需求;提供需求描述和背景 | 路由决策报告 |
| 技术主R/研发 | 提供涉及的代码仓库和系统信息;确认代码影响分析是否准确 | 代码影响确认 |
| 路由结果 | 后续流程 |
|---|---|
| L1 绿区 | 直接进入阶段 1,走模式 B(AI 端到端)简化流程 |
| L2 黄区 | 进入阶段 1,走模式 A(Spec 驱动)标准流程 |
| L3/L4 | 先用 project-decomposer 拆解,再各模块进入阶段 1 |
| 涉及大量存量代码 | 阶段 1 之前先用 legacy-code-analyzer 理解现有系统 |
使用 legacy-code-analyzer 技能:
时间参考:简单需求 15 分钟,涉及存量代码 1-2 小时
| 角色 | 具体工作 | 产出 |
|---|---|---|
| 产品经理 | 用 spec-writer 技能将 PRD 转为结构化 Spec;用 spec-reviewer 技能自检质量;标注"需研发补充"和"需确认"的部分 | Spec 草稿(含标注) |
| 设计师 | 完成交互和视觉设计;按设计交付指南提供结构化设计资产;提供组件映射表和交互说明;参与 Spec 评审,提供设计资产 | 设计资产包 |
| 产品负责人(大项目) | 用 project-decomposer 拆解模块;定义全局契约草案;确定各模块的产品经理 | Level 0 Spec + 全局契约草案 |
时间参考:简单项目 1-2 天,中等项目 3-5 天,复杂项目 1-2 周
| 角色 | 具体工作 | 产出 |
|---|---|---|
| 产品经理 | 主持评审会,逐模块讲解;记录研发和QA的反馈;会后更新 Spec | 更新后的 Spec |
| 研发 | 评审功能定义的可行性;补充"约束与依赖"模块;评审接口契约,补充技术约束;指出遗漏的异常场景和系统影响 | 约束与依赖内容 + 接口技术约束 |
| QA | 评审验收标准是否可测试;补充遗漏的测试场景;评估测试复杂度和风险 | 补充的验收标准 + 测试风险评估 |
| 设计师 | 确认设计资产与 Spec 功能定义一致;补充设计细节说明;使用 design-spec-converter 转换设计规范 | 设计规范确认 + 结构化设计标注 |
| 技术主R(大项目) | 评审模块拆解合理性;组织跨模块接口对齐;确认全局契约 | 全局契约定稿 |
| 角色 | 具体工作 | 产出 |
|---|---|---|
| 研发 | 用 tech-plan-generator 生成技术方案草稿;Review 和修改 AI 生成的草稿;确认/创建 AI-CONTEXT.md;确定实现步骤和排期 | 技术方案 + AI-CONTEXT.md + 排期 |
| 产品经理 | 答疑业务问题;确认排期是否满足业务要求 | 排期确认 |
| QA | 用 testcase-generator 生成测试用例草稿;审查和补充 AI 生成的测试用例;评估自动化测试可行性 | 测试用例集 |
如果仓库没有 AI-CONTEXT.md,研发在这个阶段创建。参照 ai-context-guide.md。
这直接决定后续 AI 生成代码的质量——写得越完善,后面 Review 的工作量越小。
| 角色 | 具体工作 | 产出 |
|---|---|---|
| 研发 | AI 生成代码(按技术方案和 Spec);Review AI 产出(用 ai-code-reviewer 技能);补全 AI 做不好的部分;编写/补充自动化测试;确保 CI 通过 | 可运行代码 + 自动化测试 |
| 产品经理 | 响应研发的业务问题;跟踪进度,识别风险;如有 Spec 变更需求,走变更流程 | 进度跟踪 + 变更管理 |
| QA | 准备测试环境;完善探索性测试计划;等待提测 | 测试环境 + 探索测试计划 |
| 设计师 | 首轮视觉走查(核心页面完成后);对照设计稿检查 UI 还原度;记录视觉偏差问题并反馈给研发 | 首轮视觉走查报告 |
| 角色 | 具体工作 | 产出 |
|---|---|---|
| 研发 | 使用 implementation-spec-diff 技能比对代码与 Spec;标注差异项 | 一致性报告 |
| 产品经理 | 审查差异项;决定每个差异的处理方式 | 确认决策 |
对每个差异,产品选择:
时间参考:L1 项目 15-30 分钟,L2 项目 1-2 小时,L3/L4 项目 2-4 小时
| 角色 | 具体工作 | 产出 |
|---|---|---|
| QA | 执行测试用例(自动化 + 手工);执行探索性测试(重点关注 AI 代码特有风险);提交 Bug 并标记根因分类;回归验证 | 测试报告 + Bug 列表(含根因标记) |
| 研发 | 修复 Bug;分析 Bug 根因(Spec问题/AI-CONTEXT.md缺失/AI能力限制/人的错误);补充遗漏的自动化测试 | 修复代码 + 根因分析 |
| 产品经理 | UAT 验收;对照验收标准逐条确认;确认用户体验达预期 | UAT 签字 |
| 设计师 | 终轮视觉走查 — 全页面/全场景检查;对照设计稿逐页确认 UI 还原度、间距、颜色、字体;视觉验收签字 | 视觉验收报告 + 视觉验收签字 |
| 标记 | 含义 | 后续动作 |
|---|---|---|
S-spec | Spec 没写清楚导致 | 改进 Spec 写法 |
C-context | AI-CONTEXT.md 缺少约定导致 | 研发更新 AI-CONTEXT.md |
A-ai | AI 能力限制导致 | 记录到 AI 能力边界 |
H-human | 人的失误(与 AI 流程无关) | 常规修复 |
参照 探索性测试指南,重点关注:
| 角色 | 具体工作 | 产出 |
|---|---|---|
| 研发 | 制定上线方案(灰度策略);执行上线;监控关键指标;异常时回滚 | 上线完成 |
| QA | 线上回归测试;验证灰度环境功能正常 | 线上验证报告 |
| 产品经理 | 线上验收核心功能;监控业务指标;收集用户反馈 | 业务指标确认 |
| 项目等级 | 灰度方式 |
|---|---|
| L1 绿区 | 全量发布或简单灰度(10% → 100%) |
| L2 黄区 | 分步灰度(1% → 10% → 50% → 100%) |
| L3/L4 | 严格灰度(1% → 5% → 10% → 50% → 100%),每步观察 ≥ 24h |
| 角色 | 具体工作 | 产出 |
|---|---|---|
| 产品经理 | 汇总本次 Spec 的问题;用 spec-iteration-tracker 归因分析;更新 Spec 写法指南 | Spec 改进记录 |
| 研发 | 汇总 Code Review 中的高频问题;更新 AI-CONTEXT.md;评估 AI 草稿可用率 | AI-CONTEXT.md 更新 + 数据 |
| QA | 汇总 Bug 根因分布;更新测试策略;更新质量度量看板 | 质量报告 + 度量更新 |
| 设计师 | 汇总视觉走查中的高频还原问题;总结设计资产交付的改进点;反馈 AI 生成代码对设计还原的常见偏差 | 体验质量回顾报告 |
| 全角色 | 用 skill-evaluator 评估本次使用的技能;讨论流程中的卡点;确定下次改进的优先级 | 改进计划 |
特点:沟通成本低,不需要正式评审会
特点:需要正式评审,但团队单一
特点:多团队并行,一致性是最大风险
项目执行过程中,Spec 不可避免会有变更。关键是管理变更,而不是阻止变更。
| 日期 | 变更内容 | 影响范围 | 发起人 | 确认人 |
|---|---|---|---|---|
| [日期] | [改了什么] | [影响哪些模块/接口] | [谁提的] | [谁确认的] |
| 阶段 | 产品使用 | 研发使用 | QA 使用 | 设计使用 |
|---|---|---|---|---|
| 0 需求路由 | requirement-router | requirement-router(确认代码影响) | - | - |
| 0 存量代码 | - | legacy-code-analyzer | - | - |
| 1 需求定义 | spec-writer, project-decomposer | - | - | - |
| 2 Spec评审 | spec-reviewer | - | - | design-spec-converter |
| 2 跨模块Review | cross-module-reviewer | cross-module-reviewer | - | - |
| 3 技术设计 | - | tech-plan-generator | testcase-generator | - |
| 4 开发实现 | - | ai-code-reviewer | - | - |
| 4.5 一致性审查 | implementation-spec-diff(确认) | implementation-spec-diff(执行) | - | - |
| 7 复盘改进 | spec-iteration-tracker | spec-iteration-tracker | spec-iteration-tracker | - |
| 持续 | skill-evaluator | skill-evaluator | skill-evaluator | - |
AI 参与的项目,线上质量标准只能更高,不能更低。从方法论、Spec 质量评级、多层防护到风险应对,构建完整的质量保障体系。
当项目超出"一个 Spec 就能搞定"的范围时(L3/L4),需要更高级的策略来保障质量。
复杂项目通过多层 Spec 循环逐步分解:
| 层级 | 目标 | 产出 | 参与者 |
|---|---|---|---|
| Level 0 项目级 | 拆成哪些模块和阶段 | 模块清单 + 依赖关系 + 全局契约 | 产品负责人 + 各模块PM + 技术主R |
| Level 1 模块级 | 每个模块的完整 Spec | 业务定义 + 验收标准 + 接口契约 | 模块PM + 对应研发 |
| Level 2 任务级 | 可执行的实施方案 | 技术方案 + 代码结构 + 测试用例 | 研发 + QA |
拆解层数取决于项目规模:简单项目(≤5人2周)0层直接写 Spec;中等项目 1 层;复杂项目 2 层;超大型项目 2-3 层 + 阶段制。
对关键模块或高不确定性的实现,用多个方案并行探索,择优整合:
先定义清晰的交付标准,然后循环(生成 → 评估 → 改进 → 再评估),直到达标:
Spec 质量是整个交付链条的源头。使用 spec-reviewer 技能对 Spec 进行质量评级:
| 等级 | 标准 | 可否进入开发 |
|---|---|---|
| A 级 | 所有模块完整、验收标准清晰、接口契约完备、无歧义 | 直接进入开发 |
| B 级 | 核心模块完整、验收标准基本清晰、有少量待确认项 | 可进入开发,待确认项并行解决 |
| C 级 | 部分模块缺失或不清晰、验收标准不够具体 | 需补充后重新评审 |
| D 级 | 结构不完整、缺少关键定义、无法指导开发 | 需重写 |
详细评审维度参见 spec-review-checklist.md(5 维度 30+ 检查项)和 spec-quality-rubric.md(好/坏写法对比示例)。
AI 基于知识库(编码规范 + 技术架构 + 领域知识)生成代码,从源头保证质量
CI/CD 流水线中的 lint、单元测试、集成测试自动执行。不通过就不能合并,无论是 AI 写的还是人写的
研发做 Code Review,重点关注系统兼容性、安全、性能。所有 AI 生成的代码必须经过人工 review 才能合入
自动化测试 + QA 探索性测试 + 产品 UAT
所有变更灰度发布,关键指标异常自动回滚
设计师在交付流程中承担视觉质量守护的角色,通过两轮走查确保 UI 还原度:
| 走查轮次 | 时机 | 重点 |
|---|---|---|
| 首轮走查(阶段 4) | 核心页面开发完成后 | 整体布局、核心交互、组件使用是否正确 |
| 终轮走查(阶段 5) | 提测完成、上线前 | 全页面逐像素检查、间距/颜色/字体/动效细节 |
详细的视觉走查流程和检查清单见 visual-review-guide.md
| 风险 | 应对机制 |
|---|---|
| AI 不了解系统历史逻辑,改 A 影响 B | AI 知识库记录模块关联逻辑 + AI 生成影响范围分析供 review |
| AI 重复造轮子,不用已有组件库 | AI 知识库明确组件库和禁止事项 + Code Review 专项检查 |
| AI 生成的代码不符合编码规范 | AI 知识库编码规范层定义规范 + CI lint 自动拦截 |
| AI 生成的代码有安全漏洞 | 安全扫描工具集成到 CI + 人工 review 安全检查项 |
| AI 对复杂业务逻辑理解偏差 | Spec 中用 Given-When-Then 明确验收标准 + 完善的测试覆盖 |
AI 参与的项目,线上质量标准只能更高,不能更低。