Loop Engineering：从手动 Prompt 到设计系统的跃迁

你让 AI 写一段代码。它写完了。你跑了一下测试，报错了。你把报错信息贴回去，它改了。你再跑，又报错了。你再贴回去，它再改。终于，测试通过了。

这个过程你一定不陌生。每一轮，都是你亲手把信息喂给 AI，等它响应，检查结果，发现问题，再喂回去。你是那个手动驱动循环的齿轮。

如果你能把这个循环的每一步都交给系统自动完成呢？你不再需要坐在屏幕前一遍遍复制粘贴报错信息，只需要在开始时设计好这个循环，然后让它自己跑。

Loop Engineering 就是反复做这件事。

· · ·

四次抽象跃迁

要理解 Loop Engineering，最清晰的方式是回溯 AI 编程的演进路径。这条路径上有四次关键的抽象跃迁。

第一次跃迁：Prompt Engineering

最早的问题：AI 能力很强，但你得会说它才听得懂。同样一个需求，有人说"帮我写个登录页面"，有人说"用 React + TypeScript 写一个包含邮箱验证和 OAuth 的登录组件"——得到的代码质量天差地别。Prompt Engineering 解决的是表达问题。

第二次跃迁：Context Engineering

你写了一个完美的 Prompt，AI 也给出了不错的代码。但它不知道你的项目用了哪个版本的框架，不知道你们团队的代码规范。Context Engineering 应运而生——在 AI 开始工作之前，把所有相关的背景信息送到它眼前。

第三次跃迁：Harness Engineering

有了好的 Prompt 和充分的上下文，AI 写代码的成功率大幅提升。但每一轮"修改、验证、再修改"的循环，仍然是你手动驱动的。Harness 就是一条套在 AI 身上的缰绳——一个外层脚本，负责调用 AI、执行验证、收集结果、决定是否继续循环。

第四次跃迁：Loop Engineering

Harness 是"我为这个任务写一个脚本"，Loop 是"我设计一个通用系统让任何任务都能跑"。这是核心区别。

维度	Prompt Eng.	Context Eng.	Harness Eng.	Loop Eng.
解决什么问题	如何精确表达意图	如何让AI看到足够信息	如何让AI自动跑验证循环	如何设计通用可复用的自主循环
你的角色	指令编写者	信息组织者	脚本编写者	系统设计者
代表实践	CoT、Few-shot	RAG、CLAUDE.md	SWE-agent、Aider	Claude Code /loop、Codex

· · ·

△ Agent 不再只是一次性工具，而是持续运行的后台劳动力

为什么是现在？

2026年6月初，几条发言把这个概念推到了风口上：

6月2日 — Claude Code 负责人 Boris Cherny 在活动中说："I don't prompt Claude anymore. I have loops running that prompt Claude. My job is to write loops."
6月7日 — OpenAI 的 Peter Steinberger 在 X 上发推："You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents"——24小时突破500万浏览量
同日 — Google 的 Addy Osmani 发表博文，正式将概念命名为 Loop Engineering

三天之内，概念引爆。背后的技术验证链已经跑了三年多：2024年 SWE-agent 和 Aider 验证了"AI 放进自动循环真的能跑通"，2026年2月 Harness Engineering 正式命名，LangChain 实验证明同一个模型换 Harness 架构通过率从 52.8% 跳到 66.5%。模型没变，变的是循环设计。

· · ·

五要素模型

Addy Osmani 给出了 Loop 的五要素模型。这五个要素每一个都对应着 Loop 运行中一个真实的瓶颈：

要素	解决的瓶颈	类比	没有它会怎样
Automations	谁来启动循环	心跳	每次都要人工触发，跟 Harness 无异
Worktrees	并行任务互相干扰	隔离舱	AI 同时改多处代码，冲突不断
Skills	项目知识无法累积	肌肉记忆	每轮循环都从零学起，效率无法提升
Connectors	AI 无法触碰外部工具	手和脚	AI 只能"想"不能"做"，验证仍需人工
Sub-agents	AI 无法有效检查自己	质检员	速度越快，次品越多

一个完整的 Loop 运行场景：凌晨2点，Automation 的定时心跳触发了巡检任务。AI 被唤醒，从 Skills 中加载项目规范，通过 Connectors 访问代码库和终端，在独立的 Worktree 中开始工作。它修了一个 bug，跑测试没通过。Sub-agent 的 Reviewer 角色介入，分析失败原因，Builder 换一种修法，再跑测试——通过了。Termination Logic 判断循环结束，提交 PR。

· · ·

Loop 运行的六大组件

五要素回答的是"设计 Loop 需要哪些零件"，而运行时需要六个组件：

组件	作用	设计要点	常见失误
Goal	定义"完成"长什么样	具体、可测试、限定范围	目标模糊导致无限循环
Tools	让 Agent 能与环境交互	覆盖执行、读写、搜索、测试	工具不足导致 Loop 只能"猜"
Context	管理 Agent 的信息输入	压缩历史、结构化日志、按需刷新	Token 溢出或信息淹没
Termination	决定什么时候停	成功条件+失败条件+升级路径	只设成功条件，没有失败出口
Error Recovery	出错后怎么办	区分可恢复/不可恢复	同样失败重复同样尝试
Guardrails	防止悄悄失控	资源类焊死、认知类可插拔	两类混在一起

· · ·

△ 入口正在从命令行，迁移到可以调度智能体的控制台

四种常见 Loop 模式

模式一：Retry Loop

核心逻辑：错了就再来。AI 生成→验证→失败则反馈→重新生成→再验证→直到通过或达到最大重试次数。

适用场景：修 bug、修 lint 错误，目标明确、验证标准清晰的任务。

陷阱：Thrashing（空转）。连续几轮修改方向一直错，消耗 token 却毫无进展。

模式二：Plan-Execute-Verify

核心逻辑：先想再做再查。AI 先制定计划，按计划执行，执行完后验证整体结果，失败则回到计划阶段调整。

适用场景：跨多文件的重构、新功能开发。

陷阱：Overfitting to Tests。AI 可能为了让测试通过而"作弊"——直接 hardcode 测试用例的期望值。

模式三：Explore-Narrow

核心逻辑：先广后深。AI 先广泛探索代码库理解整体结构，再缩小范围定位到关键代码进行修改。

适用场景：复杂的 bug 排查、性能优化、安全漏洞定位。

陷阱：Context Drift。探索阶段耗时过长，AI 上下文窗口被大量无关信息占据。

模式四：Human-in-the-Loop

核心逻辑：Loop 自动运行，但在特定节点暂停，等待人类确认后再继续。

适用场景：所有生产环境的 Loop——尤其是涉及数据变更和发布操作的。

陷阱：Cognitive Surrender（认知投降）。人类面对 AI 的方案倾向于直接点"确认"，久而久之，Human-in-the-Loop 名存实亡。

· · ·

△ 人类的位置上移：从执行者变成目标、权限与责任的设定者

三大风险

① Comprehension Debt（理解债务）

Loop 替你写了大量代码，但你并没有真正理解这些代码。代码库里有大量"你知道它能跑，但不知道它为什么能跑"的部分。理解债务本身不会让系统崩溃——直到有一天你需要修改那些 Loop 生成的代码。

应对：Loop 生成的代码必须经过人类 Code Review；定期做代码审计日。

② Cognitive Surrender（认知投降）

你不再审查 Loop 的输出，只是机械地点"确认"。不是因为输出一定正确，而是因为审查太累了，而 Loop 的输出"看起来总是对的"。

应对：随机抽检 20% 做深度审查；设置"红色按钮"——Loop 超时自动暂停强制审查。

③ Verification Gap（验证缺口）

Loop 的验证手段覆盖不了所有可能的错误类型。测试能验证功能正确性，但验证不了性能退化、安全漏洞、用户体验退化。

应对：在 Verify 阶段加入非功能性检查——性能基准测试、安全扫描、Linter 规则。

· · ·

收束

Loop doesn't know the difference. You do.

Loop 不知道它修的是一个无关紧要的 typo，还是一个可能导致数据泄露的严重 bug。它不知道你点"确认"是因为认真审查过，还是因为习惯。它不知道测试通过了但性能退化了，它只知道"测试通过了"。

Loop 是一个加速器。它能让 AI 编程的效率提升一个数量级——Boris Cherny 一个月 4 万行代码就是证明。但加速器没有方向感。它可以让你跑得更快，也可以让你更快地跑向错误的方向。

Build the loop. But build it like someone who intends to stay the engineer.