方法论 — AI Coding 驱动的项目交付体系

评分维度	说明
功能独立性	是否可独立部署、不影响其他系统
业务风险	是否涉及资金、用户核心体验
用户影响	影响用户的范围和严重程度
状态复杂度	状态流转是否复杂、是否有跨服务状态同步
接口复杂度	涉及的接口数量和交互模式
团队规模	参与的团队和人员数量

等级	AI 参与策略	协作模式
L1 绿区	AI 深度参与，可端到端生成代码，人做 review 和验收	模式 B（AI 端到端）
L2 黄区	AI 辅助生成草稿，人 review 和补全，逐步扩大 AI 范围	模式 A（Spec 驱动）
L3 黄区	AI 辅助生成草稿，人 review 和补全，涉及复杂系统需特别审慎	模式 A（Spec 驱动）
L4 红区	AI 仅辅助技术方案和测试用例，核心代码人工编写	模式 A（Spec 驱动，极度审慎）

Part 二

协作模式 — "不同级别怎么协作"

根据项目等级，选择不同的协作模式。两种模式各有侧重，核心区别在于 AI 的参与深度和研发的角色定位。

2.1 模式 A：Spec 驱动（适用于 L2/L3/L4）

产品和研发围绕 Spec 文档协作，随着 AI 知识库的积累，分两个阶段逐步演进。

阶段一：探索期 — PRD → Spec-PRD → Spec（三步走）

初期知识库尚不完善，产品聚焦业务逻辑结构化，研发补充技术设计，分步降低门槛。

Step 1：PRD → Spec-PRD（产品主导）

原始 PRD → AI 辅助结构化 → Spec-PRD 草稿 → 质量自检 → Spec-PRD 定稿

Spec-PRD：业务逻辑结构化（功能定义、状态流转、验收标准、异常分支），不含技术实现细节，标注"需技术方案补充"。

模块	内容	负责人
业务上下文	背景、目标、核心用户场景、业务规则	产品主导
功能定义	状态流转、核心流程、异常分支、边界条件	产品主导
验收标准	每个功能点的 Given-When-Then 验收条件	产品 + QA
接口语义	业务层面的输入/输出描述、字段含义（不含技术细节）	产品主导
设计资产	交互稿/视觉稿的链接或截图	设计师提供
技术方案占位	标注"需技术方案补充"的区域	待研发补充

Step 2：Spec-PRD → 实施 Spec（研发主导）

Spec-PRD → 研发补充技术设计 → 实施 Spec 草稿 → 联合评审 → 实施 Spec 定稿

实施 Spec：在 Spec-PRD 上补充完整接口契约、技术方案、数据库设计、约束与依赖。形成可直接指导 AI 编码的完整文档。

阶段二：成熟期 — PRD → Spec（一步到位）

AI 知识库已沉淀技术架构、领域知识、历史设计方案，产品可直接从 PRD 生成包含技术设计的完整 Spec。

原始 PRD → AI 生成完整 Spec → 质量评审 → 研发确认技术方案 → Spec 定稿

研发角色转变：从"技术设计的编写者"变为"技术方案的评审者"。

两阶段对比

维度	阶段一（探索期）	阶段二（成熟期）
Spec 流程	PRD → Spec-PRD → 实施 Spec（两步）	PRD → 完整 Spec（一步）
技术设计	研发手动补充	AI 基于知识库生成，研发确认
产品门槛	低 — 只需结构化业务逻辑	中 — 需理解 AI 生成的技术方案
知识库依赖	低 — 可从零开始	高 — 需充分积累

阶段推进标准

从阶段一到阶段二的推进是数据驱动的，需要满足以下门槛：

维度	标准
知识库建设	编码规范层 + 技术架构层建设完成；领域知识层覆盖主要业务模块
流程验证	累计完成 ≥ 5 个项目的 Spec-PRD → 实施 Spec 全流程
质量指标	实施 Spec 质量评审稳定达到 B 级以上
效率指标	交付周期相比传统 PRD 模式缩短 ≥ 20%
质量底线	提测缺陷密度不高于历史均值

2.2 模式 B：AI 端到端闭环（适用于 L1 绿区）

产品输出 Spec → AI 端到端生成（代码 + 测试 + 部署方案）→ 研发快速 Review → 自动化测试 → 灰度 → QA 线上验证

直接从 AI 端到端开始，限定在低风险低复杂度项目，失败成本可控。产品输出 Spec，AI 生成代码 + 测试 + 部署方案，研发快速 review 后上线。

研发 Review 重点：是否遵循项目规范、是否有安全问题、是否影响其他模块。

2.3 两种模式总览

维度	模式 A（Spec 驱动）	模式 B（AI 端到端）
适用等级	L2/L3/L4	L1
核心特点	人与 AI 协作，分步推进	AI 主导，人做验收
研发角色	技术设计者/评审者 + 代码审查者	快速审查者
QA 角色	测试策略设计 + 探索性测试	线上验证 + 探索性测试
产品角色	Spec 编写 + 交付驱动	Spec 编写 + UAT 验收

Part 三

交付流程 — "具体怎么一步步做"

一个完整项目的流程分为 8 个阶段（Stage 0 — Stage 7），每个阶段有明确的参与者、产出物和质量门禁。

阶段 0 阶段 1 阶段 2 阶段 3 阶段 4 阶段 4.5 阶段 5 阶段 6 阶段 7 需求路由 → 需求定义 → Spec评审 → 技术设计 → 开发实现 → 一致性审查 → 测试验证 → 上线发布 → 复盘改进

各阶段速览

阶段	核心活动	主导者	核心产出	质量门禁
0. 需求路由	评估流程	产品/技术主R	路由决策（L1-L4）+ 推荐流程	评分完成
1. 需求定义	写 Spec	产品	结构化 Spec + 设计资产	B级以上
2. Spec 评审	评审+补充	产品+研发	评审通过的 Spec + 全局契约	各角色签字确认
3. 技术设计	生成方案	研发	技术方案 + AI-CONTEXT.md	研发团队确认
4. 开发实现	AI+人编码	研发	可运行代码 + 测试	Code Review 通过
4.5 一致性审查	比对实现与Spec	研发+产品	一致性报告 + 修正	一致率 100%
5. 测试验证	QA测试	QA	测试报告 + UAT确认	达到交付标准
6. 上线发布	灰度上线	研发	上线成功	灰度指标正常
7. 复盘改进	数据复盘	全角色	改进报告 + 技能迭代	改进动作已落地

各阶段详情

需求路由

产品/技术主R — 评估需求复杂度和系统影响

谁做什么

角色	具体工作	产出
产品经理	使用 requirement-router 技能评估需求；提供需求描述和背景	路由决策报告
技术主R/研发	提供涉及的代码仓库和系统信息；确认代码影响分析是否准确	代码影响确认

requirement-router 做什么

6 维度评分（功能独立性/业务风险/用户影响/状态复杂度/接口复杂度/团队规模）
代码影响分析（涉及模块、历史 Bug 密度、AI-CONTEXT.md 陷阱交叉检查）
输出：项目等级（L1-L4）+ 推荐流程 + 是否需要拆解 + 推荐的技能链

路由结果决定后续流程

路由结果	后续流程
L1 绿区	直接进入阶段 1，走模式 B（AI 端到端）简化流程
L2 黄区	进入阶段 1，走模式 A（Spec 驱动）标准流程
L3/L4	先用 project-decomposer 拆解，再各模块进入阶段 1
涉及大量存量代码	阶段 1 之前先用 legacy-code-analyzer 理解现有系统

存量代码处理（如路由结果指出涉及存量代码）

使用 legacy-code-analyzer 技能：

输入涉及的代码模块 + AI-CONTEXT.md
AI 生成理解报告（结构、业务规则、风险区域、影响范围）
研发确认报告的准确性（关键！AI 的理解可能有错）
确认后的报告作为阶段 1 写 Spec 的上下文输入

质量门禁

路由评分已完成，项目等级已确定
如涉及存量代码，理解报告已由研发确认
后续流程和技能链已明确

时间参考：简单需求 15 分钟，涉及存量代码 1-2 小时

详细的需求路由评估维度见 requirement-router 技能 · 存量代码治理策略见 legacy-code-strategy.md · 完整流程图见 flowchart.html

需求定义

产品主导 — 产出 B 级以上的结构化 Spec + 设计资产

谁做什么

角色	具体工作	产出
产品经理	用 spec-writer 技能将 PRD 转为结构化 Spec；用 spec-reviewer 技能自检质量；标注"需研发补充"和"需确认"的部分	Spec 草稿（含标注）
设计师	完成交互和视觉设计；按设计交付指南提供结构化设计资产；提供组件映射表和交互说明；参与 Spec 评审，提供设计资产	设计资产包
产品负责人（大项目）	用 project-decomposer 拆解模块；定义全局契约草案；确定各模块的产品经理	Level 0 Spec + 全局契约草案

时间参考：简单项目 1-2 天，中等项目 3-5 天，复杂项目 1-2 周

质量门禁

Spec 通过 spec-reviewer 自检，达到 B 级以上
设计资产包含组件映射表和结构化交互说明
所有"需确认"项已标注

注意事项：不要闷头写完才给人看——写完业务上下文和核心场景后就可以先口头和研发对一下。不要猜技术约束——标注"需研发补充"。接口契约只定义业务语义（字段含义、约束），不定义技术实现。

Spec 评审

产品+研发共同主导 — 全角色对齐理解，补全技术部分

谁做什么

角色	具体工作	产出
产品经理	主持评审会，逐模块讲解；记录研发和QA的反馈；会后更新 Spec	更新后的 Spec
研发	评审功能定义的可行性；补充"约束与依赖"模块；评审接口契约，补充技术约束；指出遗漏的异常场景和系统影响	约束与依赖内容 + 接口技术约束
QA	评审验收标准是否可测试；补充遗漏的测试场景；评估测试复杂度和风险	补充的验收标准 + 测试风险评估
设计师	确认设计资产与 Spec 功能定义一致；补充设计细节说明；使用 design-spec-converter 转换设计规范	设计规范确认 + 结构化设计标注
技术主R（大项目）	评审模块拆解合理性；组织跨模块接口对齐；确认全局契约	全局契约定稿

评审会议程（建议 60-90 分钟）

0-5min    产品简介 Spec 结构（第一次协作时需要）
5-20min   业务上下文 + 功能定义过一遍（研发提问和补充）
20-40min  验收标准逐条过（QA重点参与）
40-55min  接口契约讨论（研发主导）
55-65min  约束与依赖（研发填写）
65-75min  汇总开放问题和待确认项
75-80min  确认下一步计划和排期

大项目额外增加跨模块 Review

各模块 Spec 评审通过后 → 跨模块 Review 会
  - 使用 cross-module-reviewer 技能
  - 检查接口对齐、术语一致、数据模型一致
  - 参与者：各模块产品经理 + 技术主R
  - 产出：跨模块一致性审查报告

质量门禁

研发已补充"约束与依赖"
QA 已确认验收标准可测试
设计师已确认设计资产与功能定义一致
所有"需确认"项已解决或转为"开放问题"
大项目：跨模块 Review 零 Blocking

注意：这一步不是走过场——研发的补充可能会改变你的功能设计。评审中发现的重大问题，宁可推迟开发也要改清楚。评审后的 Spec 才是"基线版本"，后续变更走变更管理。

技术设计

研发主导 — 基于评审通过的 Spec，确定技术实现方案

谁做什么

角色	具体工作	产出
研发	用 tech-plan-generator 生成技术方案草稿；Review 和修改 AI 生成的草稿；确认/创建 AI-CONTEXT.md；确定实现步骤和排期	技术方案 + AI-CONTEXT.md + 排期
产品经理	答疑业务问题；确认排期是否满足业务要求	排期确认
QA	用 testcase-generator 生成测试用例草稿；审查和补充 AI 生成的测试用例；评估自动化测试可行性	测试用例集

AI-CONTEXT.md 的创建/更新（研发核心任务）

如果仓库没有 AI-CONTEXT.md，研发在这个阶段创建。参照 ai-context-guide.md。

这直接决定后续 AI 生成代码的质量——写得越完善，后面 Review 的工作量越小。

质量门禁

技术方案中的待决策项全部已决策
AI-CONTEXT.md 已创建或更新
测试用例覆盖所有验收标准（追溯矩阵完整）
排期已确认

开发实现

研发主导 — 产出可运行的、符合 Spec 和 AI-CONTEXT.md 的代码

谁做什么

角色	具体工作	产出
研发	AI 生成代码（按技术方案和 Spec）；Review AI 产出（用 ai-code-reviewer 技能）；补全 AI 做不好的部分；编写/补充自动化测试；确保 CI 通过	可运行代码 + 自动化测试
产品经理	响应研发的业务问题；跟踪进度，识别风险；如有 Spec 变更需求，走变更流程	进度跟踪 + 变更管理
QA	准备测试环境；完善探索性测试计划；等待提测	测试环境 + 探索测试计划
设计师	首轮视觉走查（核心页面完成后）；对照设计稿检查 UI 还原度；记录视觉偏差问题并反馈给研发	首轮视觉走查报告

代码合入标准（Code Review 通过条件）

□ ai-code-reviewer 检查零 Blocking
□ AI-CONTEXT.md 合规检查通过
□ 单元测试覆盖核心路径
□ CI 全部通过（lint + test + build）
□ 人工 Review 无重大问题

赛马机制（L3/L4 高风险模块可选）

Spec 同时给两个方案（不同模型 / 不同思路）
  → 各自生成代码
  → 用 ai-code-reviewer 分别 Review
  → 综合比较择优
  → 必要时取各方案优点整合

循环达标（每个模块）

AI 生成代码 → Code Review → 不达标 → 明确修改点 → AI 修改 → 再 Review
最多 3-5 轮。超过则研发人工接管该部分。

质量门禁

所有 Code Review Blocking 已修复
CI 全部绿色
核心路径自动化测试通过
研发自测核心场景通过

4.5

实现-Spec 一致性审查

研发+产品 — 确保实际代码与 Spec 完全一致

为什么需要这一步：开发过程中，实现很容易"偏离"Spec——研发做了 Spec 没写的功能、Spec 要求的某个边界没实现、接口字段名不一致。这些偏差如果不在提测前捕获，就会变成 Bug 或长期技术债。

谁做什么

角色	具体工作	产出
研发	使用 implementation-spec-diff 技能比对代码与 Spec；标注差异项	一致性报告
产品经理	审查差异项；决定每个差异的处理方式	确认决策

implementation-spec-diff 做什么

逐条比对 Spec 验收标准（AC）与代码实现
比对接口契约（字段名、类型、错误码）
比对状态机（转换路径是否一致）
发现"多做的"（代码有但 Spec 没定义）和"少做的"（Spec 有但没实现）

产品确认差异项

对每个差异，产品选择：

改代码：Spec 是对的，实现偏了 → 研发修复
更新 Spec：实现合理，Spec 需要更新 → 产品更新 Spec
两边都调整：双方都有问题

质量门禁

所有 AC 的实现状态已确认
一致率达到 100%（所有差异项已处理）
如有 Spec 更新，已记录变更

时间参考：L1 项目 15-30 分钟，L2 项目 1-2 小时，L3/L4 项目 2-4 小时

触发时机

提测前（必须）
UAT 前（L2+ 建议）
上线前（L3/L4 必须）

详细技能说明见 implementation-spec-diff 技能

测试验证

QA 主导 — 验证交付质量达到标准

谁做什么

角色	具体工作	产出
QA	执行测试用例（自动化 + 手工）；执行探索性测试（重点关注 AI 代码特有风险）；提交 Bug 并标记根因分类；回归验证	测试报告 + Bug 列表（含根因标记）
研发	修复 Bug；分析 Bug 根因（Spec问题/AI-CONTEXT.md缺失/AI能力限制/人的错误）；补充遗漏的自动化测试	修复代码 + 根因分析
产品经理	UAT 验收；对照验收标准逐条确认；确认用户体验达预期	UAT 签字
设计师	终轮视觉走查 — 全页面/全场景检查；对照设计稿逐页确认 UI 还原度、间距、颜色、字体；视觉验收签字	视觉验收报告 + 视觉验收签字

Bug 根因标记（重要，为后续改进提供数据）

标记	含义	后续动作
`S-spec`	Spec 没写清楚导致	改进 Spec 写法
`C-context`	AI-CONTEXT.md 缺少约定导致	研发更新 AI-CONTEXT.md
`A-ai`	AI 能力限制导致	记录到 AI 能力边界
`H-human`	人的失误（与 AI 流程无关）	常规修复

探索性测试重点方向（AI 代码特有）

参照探索性测试指南，重点关注：

跨模块状态一致性
边界值行为
异常恢复路径
用户体验连贯性

质量门禁

所有 P0/P1 Bug 已修复并回归通过
自动化测试通过率 100%
产品 UAT 签字通过
设计师视觉验收签字通过
探索性测试无重大发现

上线发布

研发主导 — 安全上线，灰度验证

谁做什么

角色	具体工作	产出
研发	制定上线方案（灰度策略）；执行上线；监控关键指标；异常时回滚	上线完成
QA	线上回归测试；验证灰度环境功能正常	线上验证报告
产品经理	线上验收核心功能；监控业务指标；收集用户反馈	业务指标确认

灰度策略

项目等级	灰度方式
L1 绿区	全量发布或简单灰度（10% → 100%）
L2 黄区	分步灰度（1% → 10% → 50% → 100%）
L3/L4	严格灰度（1% → 5% → 10% → 50% → 100%），每步观察 ≥ 24h

质量门禁

灰度期间核心指标无异常
无 P0/P1 线上问题
产品确认业务指标正常

复盘改进

全角色 — 从本次项目中提取改进点，让下次更好

谁做什么

角色	具体工作	产出
产品经理	汇总本次 Spec 的问题；用 spec-iteration-tracker 归因分析；更新 Spec 写法指南	Spec 改进记录
研发	汇总 Code Review 中的高频问题；更新 AI-CONTEXT.md；评估 AI 草稿可用率	AI-CONTEXT.md 更新 + 数据
QA	汇总 Bug 根因分布；更新测试策略；更新质量度量看板	质量报告 + 度量更新
设计师	汇总视觉走查中的高频还原问题；总结设计资产交付的改进点；反馈 AI 生成代码对设计还原的常见偏差	体验质量回顾报告
全角色	用 skill-evaluator 评估本次使用的技能；讨论流程中的卡点；确定下次改进的优先级	改进计划

复盘会议程（建议 60 分钟）

0-10min   数据回顾：交付周期、缺陷密度、AI可用率
10-25min  Bug 根因分析：S类/C类/A类/H类的分布
25-40min  各角色反馈：哪里顺畅、哪里卡顿
40-55min  确定 TOP 3 改进项和负责人
55-60min  确认下次项目使用什么改进后的流程和技能

质量门禁

改进动作有明确的负责人和截止时间
AI-CONTEXT.md 已更新
质量度量看板已更新

不同项目规模的协同差异

小项目（1PM + 1-2研发 + 1QA）

特点：沟通成本低，不需要正式评审会

阶段 2 评审可以简化为 30 分钟的 1:1 对齐
不需要全局契约
不需要跨模块 Review
复盘可以简化为 15 分钟快速回顾

中项目（1-2PM + 3-8研发 + 1-2QA）

特点：需要正式评审，但团队单一

标准流程走一遍
可能需要 1 层拆解（Level 0 → Level 1）
评审会按标准议程执行
需要指定一个技术主R

大项目（多PM + 多团队 + 多QA）

特点：多团队并行，一致性是最大风险

必须 2 层拆解（Level 0 → Level 1 → Level 2）
必须定义全局契约
必须有跨模块 Review
必须有技术主R承担全局一致性
各模块并行走标准流程，但增加同步节点

同步节点

全局契约评审（项目启动后第 1 周）
各模块 Spec 完成后的跨模块 Review
各模块开发完成后的契约测试
集成测试前的联调对齐
全量上线前的综合评估

Spec 变更管理

项目执行过程中，Spec 不可避免会有变更。关键是管理变更，而不是阻止变更。

变更流程

发现需要变更 → 评估影响范围
  ↓
影响小（仅当前模块内）：
  → 产品更新 Spec → 通知研发和QA → 研发评估实现影响 → 确认变更

影响大（跨模块 / 涉及接口变更）：
  → 产品提变更请求 → 技术主R评估影响 → 受影响模块确认
  → 更新全局契约（如需）→ 各模块同步更新 Spec → 确认变更

变更记录格式

日期	变更内容	影响范围	发起人	确认人
[日期]	[改了什么]	[影响哪些模块/接口]	[谁提的]	[谁确认的]

协同工具一览

各阶段使用的技能

阶段	产品使用	研发使用	QA 使用	设计使用
0 需求路由	requirement-router	requirement-router（确认代码影响）	-	-
0 存量代码	-	legacy-code-analyzer	-	-
1 需求定义	spec-writer, project-decomposer	-	-	-
2 Spec评审	spec-reviewer	-	-	design-spec-converter
2 跨模块Review	cross-module-reviewer	cross-module-reviewer	-	-
3 技术设计	-	tech-plan-generator	testcase-generator	-
4 开发实现	-	ai-code-reviewer	-	-
4.5 一致性审查	implementation-spec-diff（确认）	implementation-spec-diff（执行）	-	-
7 复盘改进	spec-iteration-tracker	spec-iteration-tracker	spec-iteration-tracker	-
持续	skill-evaluator	skill-evaluator	skill-evaluator	-

各阶段使用的工具包文档

阶段	参考文档
0 需求路由	完整流程图, 存量代码策略
1 需求定义	Spec模板, 快速上手指南, 设计交付指南
2 Spec评审	Spec评审清单, 大项目策略
3 技术设计	AI-CONTEXT指南, 测试用例审查指南
4 开发实现	代码审查清单, 反馈闭环指南
5 测试验证	探索性测试指南, 质量度量看板
7 复盘改进	技能创建指南, 最佳实践

Part 四

质量保障 — "怎么确保做得好"

AI 参与的项目，线上质量标准只能更高，不能更低。从方法论、Spec 质量评级、多层防护到风险应对，构建完整的质量保障体系。

4.1 三大方法论

当项目超出"一个 Spec 就能搞定"的范围时（L3/L4），需要更高级的策略来保障质量。

层层拆解（Hierarchical Decomposition）

复杂项目通过多层 Spec 循环逐步分解：

层级	目标	产出	参与者
Level 0 项目级	拆成哪些模块和阶段	模块清单 + 依赖关系 + 全局契约	产品负责人 + 各模块PM + 技术主R
Level 1 模块级	每个模块的完整 Spec	业务定义 + 验收标准 + 接口契约	模块PM + 对应研发
Level 2 任务级	可执行的实施方案	技术方案 + 代码结构 + 测试用例	研发 + QA

铁律：每个拆解单元必须可独立交付、可独立验证、有明确的输入输出边界。

拆解层数取决于项目规模：简单项目（≤5人2周）0层直接写 Spec；中等项目 1 层；复杂项目 2 层；超大型项目 2-3 层 + 阶段制。

赛马机制（Horse Racing）

对关键模块或高不确定性的实现，用多个方案并行探索，择优整合：

不同 AI 模型各生成一版 → 综合 Review 择优
同一模型多次生成不同方案 → 取各方案的精华
适用于：核心算法、UI 方案、技术选型等"没有标准答案"的场景
成本控制：只对高风险模块赛马，不是所有模块

循环达标（Loop Until Quality Bar）

先定义清晰的交付标准，然后循环（生成 → 评估 → 改进 → 再评估），直到达标：

每次循环必须有明确的"这次改什么"——不允许盲目重跑
设置最大循环次数（通常 3-5 次）——超过则升级人工介入
每次循环后比对差距是否缩小——不缩小说明方向错了

4.2 Spec 质量评级

Spec 质量是整个交付链条的源头。使用 spec-reviewer 技能对 Spec 进行质量评级：

等级	标准	可否进入开发
A 级	所有模块完整、验收标准清晰、接口契约完备、无歧义	直接进入开发
B 级	核心模块完整、验收标准基本清晰、有少量待确认项	可进入开发，待确认项并行解决
C 级	部分模块缺失或不清晰、验收标准不够具体	需补充后重新评审
D 级	结构不完整、缺少关键定义、无法指导开发	需重写

质量门禁要求：Spec 必须达到 B 级以上方可进入开发阶段。

详细评审维度参见 spec-review-checklist.md（5 维度 30+ 检查项）和 spec-quality-rubric.md（好/坏写法对比示例）。

4.3 多层防护体系

AI 知识库（事前规范）

AI 基于知识库（编码规范 + 技术架构 + 领域知识）生成代码，从源头保证质量

自动化检查（事中拦截）

CI/CD 流水线中的 lint、单元测试、集成测试自动执行。不通过就不能合并，无论是 AI 写的还是人写的

人工 Review（事中把关）

研发做 Code Review，重点关注系统兼容性、安全、性能。所有 AI 生成的代码必须经过人工 review 才能合入

测试验证（事后兜底）

自动化测试 + QA 探索性测试 + 产品 UAT

灰度发布 + 监控（上线保障）

所有变更灰度发布，关键指标异常自动回滚

4.4 视觉走查流程（设计师专属质量保障）

设计师在交付流程中承担视觉质量守护的角色，通过两轮走查确保 UI 还原度：

走查轮次	时机	重点
首轮走查（阶段 4）	核心页面开发完成后	整体布局、核心交互、组件使用是否正确
终轮走查（阶段 5）	提测完成、上线前	全页面逐像素检查、间距/颜色/字体/动效细节

终轮走查通过后，设计师出具视觉验收签字，签字后方可进入上线发布阶段。

详细的视觉走查流程和检查清单见 visual-review-guide.md

4.5 AI 特有的风险和应对

风险	应对机制
AI 不了解系统历史逻辑，改 A 影响 B	AI 知识库记录模块关联逻辑 + AI 生成影响范围分析供 review
AI 重复造轮子，不用已有组件库	AI 知识库明确组件库和禁止事项 + Code Review 专项检查
AI 生成的代码不符合编码规范	AI 知识库编码规范层定义规范 + CI lint 自动拦截
AI 生成的代码有安全漏洞	安全扫描工具集成到 CI + 人工 review 安全检查项
AI 对复杂业务逻辑理解偏差	Spec 中用 Given-When-Then 明确验收标准 + 完善的测试覆盖

底线原则

AI 参与的项目，线上质量标准只能更高，不能更低。

一张图总结

产品经理研发 QA 设计师技术主R ──────── ──── ── ────── ────── 阶段0 requirement-router 确认代码影响协助评估评估需求复杂度 legacy-code-analyzer 确定L1/L2/L3/L4 (存量代码时) ▼ 阶段1 写 Spec (等待) (等待) 提供设计资产 (大项目)拆解 ┃ spec-writer 组件映射表 project-decomposer ┃ spec-reviewer 交互说明全局契约 ▼ 阶段2 主持评审 ←────────→ 补充约束依赖 ←──→ 审查验收标准确认设计一致性跨模块 Review 记录反馈评审接口契约补充测试场景 design-spec- 接口对齐仲裁更新 Spec 指出系统影响测试风险评估 converter ▼ 阶段3 答疑 + 排期确认技术方案设计生成测试用例 AI-CONTEXT.md 审查+补充用例 tech-plan-generator testcase-generator ▼ 阶段4 进度跟踪 AI生成代码首轮视觉走查业务答疑 Code Review 准备测试环境 UI还原度检查变更管理 ai-code-reviewer 探索测试计划 ▼ 阶段4.5 确认差异处理方式 implementation-spec-diff 更新Spec(如需) 比对实现与Spec ▼ 阶段5 UAT 验收修 Bug 执行测试终轮视觉走查验收标准逐条确认根因分析探索性测试视觉验收签字 Bug 根因标记 ▼ 阶段6 线上业务验收执行上线线上回归测试业务指标监控灰度 + 监控 ▼ 阶段7 Spec 改进 AI-CONTEXT.md更新质量度量更新体验质量回顾 spec-iteration- 反馈闭环 Bug分布分析设计还原问题总结 tracker skill-evaluator skill-evaluator

项目分级 — "不是所有项目都一样"

1.1 分级矩阵（2×2）

1.2 各级别判断标准

1.3 各等级的 AI 参与策略

1.4 分级是动态演进的

协作模式 — "不同级别怎么协作"

2.1 模式 A：Spec 驱动（适用于 L2/L3/L4）

阶段一：探索期 — PRD → Spec-PRD → Spec（三步走）

Step 1：PRD → Spec-PRD（产品主导）

Step 2：Spec-PRD → 实施 Spec（研发主导）

阶段二：成熟期 — PRD → Spec（一步到位）

两阶段对比

阶段推进标准

2.2 模式 B：AI 端到端闭环（适用于 L1 绿区）

2.3 两种模式总览

交付流程 — "具体怎么一步步做"

各阶段速览

各阶段详情

需求路由

谁做什么

requirement-router 做什么

路由结果决定后续流程

存量代码处理（如路由结果指出涉及存量代码）

质量门禁

需求定义

谁做什么

质量门禁

Spec 评审

谁做什么

评审会议程（建议 60-90 分钟）

大项目额外增加跨模块 Review

质量门禁

技术设计

谁做什么

AI-CONTEXT.md 的创建/更新（研发核心任务）

质量门禁

开发实现

谁做什么

代码合入标准（Code Review 通过条件）

赛马机制（L3/L4 高风险模块可选）

循环达标（每个模块）

质量门禁

实现-Spec 一致性审查

谁做什么

implementation-spec-diff 做什么

产品确认差异项

质量门禁

触发时机

测试验证

谁做什么

Bug 根因标记（重要，为后续改进提供数据）

探索性测试重点方向（AI 代码特有）

质量门禁

上线发布

谁做什么

灰度策略

质量门禁

复盘改进

谁做什么

复盘会议程（建议 60 分钟）

质量门禁

不同项目规模的协同差异

小项目（1PM + 1-2研发 + 1QA）

中项目（1-2PM + 3-8研发 + 1-2QA）

大项目（多PM + 多团队 + 多QA）

同步节点

Spec 变更管理

变更流程

变更记录格式

协同工具一览

各阶段使用的技能

各阶段使用的工具包文档

质量保障 — "怎么确保做得好"

4.1 三大方法论

层层拆解（Hierarchical Decomposition）

赛马机制（Horse Racing）

循环达标（Loop Until Quality Bar）

4.2 Spec 质量评级

4.3 多层防护体系

AI 知识库（事前规范）