Skip to content

L7 — 自演化体系(Self-Evolving)

🔭 终极形态

高质量产出反哺规范/模板,形成精度持续提升的正向飞轮。条件成熟后规划。

是什么

自演化体系是指 AI 系统能够以自身的产出来改善未来的产出——使用过程中积累的质量数据(生成代码、审计报告、人工修正记录)自动反哺规范和模板,形成越用越准的正向飞轮。

这不是"AI 自动写规范",而是量化产出质量 → 识别高频偏差 → 自动强化对应规则的闭环机制。

三大飞轮机制

机制数据来源反哺目标效果
模板蒸馏高质量生成代码 → template-extract新领域模板相似场景生成精度提升
规则强化convention-audit 偏差报告积累Skill Pre-flight 警告权重高频偏差被更早拦截
工作流优化人工修正记录、步骤重跑频率_pipeline.md 步骤描述流水线减少人工干预次数

核心能力(通用)

能力说明
质量度量自动化指标衡量产出质量(lint 通过率、审计分数、人工修改次数)
反馈回路高质量产出 → 自动推荐更新规范/模板
知识积累每次运行都向共享知识库添加数据
版本演进规范和模板有版本历史,可追溯改进来源
跨项目聚合多个业务项目的偏差数据汇聚,识别系统性问题

进入门槛:需要 L5 流水线稳定运转提供足够的样本量,以及结构化存储审计数据的基础设施。

前端示例 — 本项目的 L7 规划

飞轮模型

高质量生成代码(page-codegen)

        ▼ [template-extract] 提炼为新领域模板

        ▼ 人工 review → 合并到 files/

        ▼ kit 升级发布(npx 即可获取)

        ▼ 下次生成精度更高 ──────────────┐
                                         │(循环)
convention-audit 报告积累                │
        │                                │
        ▼ 偏差统计(哪条规范最常被违反) │
        │                                │
        ▼ 规范权重调整 → Skill 描述强化  │
        │                                │
        └────────────────────────────────┘

落地所需条件

条件说明当前状态
L5 Pipeline 稳定运转Skill 链式触发已常态化,产出量足够大⏳ 未达到
审计报告数量 ≥ 50 份有足够的偏差样本做统计⏳ 积累中
模板提取 ≥ 3 次成功template-extract 流程验证可靠⏳ 未达到
跨项目质量数据汇总单项目偏差不足以发现系统性问题⏳ 需 v4.0 基础设施

与当前项目的关系

template-extract Skill + convention-audit 报告积累机制已经是这个飞轮的雏形——L7 不是全新建设,是现有机制的系统性放大

短期飞轮(L5 稳定后即可启动)

  • 同类页面出现 ≥ 5 次 → 自动推荐 template-extract
  • 某偏差出现 ≥ 3 次 → 对应 SKILL.md Pre-flight 加重警告

中期飞轮(v4.0 基础设施就绪后)

  • convention-audit 报告结构化入库,跨项目聚合
  • AI 分析高频偏差 → 生成规范修订草稿 → 人工 review 合并

长期飞轮(AI 能力充分成熟后)

  • 模板自动生成:AI 直接从代码库提炼新模板,人工只做 review
  • 规范冲突检测:新规范与现有规范的逻辑冲突由 AI 自动发现

延伸阅读

飞轮模型

高质量生成代码(page-codegen)

        ▼ [template-extract] 提炼为新领域模板

        ▼ 人工 review → 合并到 files/

        ▼ kit 升级发布(npx 即可获取)

        ▼ 下次生成精度更高 ──────────────┐
                                         │(循环)
convention-audit 报告积累                │
        │                                │
        ▼ 偏差统计(哪条规范最常被违反) │
        │                                │
        ▼ 规范权重调整 → Skill 描述强化  │
        │                                │
        └────────────────────────────────┘

落地所需条件

条件说明当前状态
L5 Pipeline 稳定运转Skill 链式触发已常态化,产出量足够大⏳ 未达到
审计报告数量 ≥ 50 份有足够的偏差样本做统计⏳ 积累中
模板提取 ≥ 3 次成功template-extract 流程验证可靠⏳ 未达到
跨项目质量数据汇总单项目偏差不足以发现系统性问题⏳ 需 v4.0 基础设施

与当前项目的关系

template-extract Skill + convention-audit 报告积累机制已经是这个飞轮的雏形——L7 不是全新建设,是现有机制的系统性放大

短期飞轮(L5 稳定后即可启动)

  • 同类页面出现 ≥ 5 次 → 自动推荐 template-extract
  • 某偏差出现 ≥ 3 次 → 对应 SKILL.md Pre-flight 加重警告

中期飞轮(v4.0 基础设施就绪后)

  • convention-audit 报告结构化入库,跨项目聚合
  • AI 分析高频偏差 → 生成规范修订草稿 → 人工 review 合并

长期飞轮(AI 能力充分成熟后)

  • 模板自动生成:AI 直接从代码库提炼新模板,人工只做 review
  • 规范冲突检测:新规范与现有规范的逻辑冲突由 AI 自动发现

延伸阅读

业界实践参考

自演化体系目前处于前沿探索阶段,以下为已有公开实践的参考案例。

公司项目/实践描述
CursorAI 反馈训练Cursor 通过用户接受/拒绝代码建议的行为数据持续改善模型偏好,是商业化自演化最典型案例
GitHub CopilotCopilot 自适应GitHub 利用代码接受率、编辑频率等指标不断调优 Copilot 建议质量
谷歌 DeepMindAlphaCode 2通过竞技编程产出自动评估和强化学习,代码质量自演化典型
SWE-agent(普林斯顿)SWE-agentAI 自动修复 GitHub Issue,产出质量通过测试套件自动评估,形成闭环

参考资料

资源说明
Self-Refine 论文AI 自我反馈迭代的奠基论文
Reflexion 论文Agent 通过反思历史错误改善未来决策的经典方案
SWE-bench衡量 AI 修复真实代码 Bug 能力的标准 Benchmark,L7 效果量化参考
Cursor BlogCursor 产品迭代背后的 AI 工程化思考
GitHub Blog — AI & MLGitHub Copilot 持续改进机制的官方说明

You may not distribute, modify, or sell this software without permission.