你让 AI 写一段代码。它写完了。你跑了一下测试,报错了。你把报错信息贴回去,它改了。你再跑,又报错了。你再贴回去,它再改。终于,测试通过了。

这个过程你一定不陌生。每一轮,都是你亲手把信息喂给 AI,等它响应,检查结果,发现问题,再喂回去。你是那个手动驱动循环的齿轮。

如果你能把这个循环的每一步都交给系统自动完成呢?你不再需要坐在屏幕前一遍遍复制粘贴报错信息,只需要在开始时设计好这个循环,然后让它自己跑。

Loop Engineering 就是反复做这件事。

· · ·

四次抽象跃迁

要理解 Loop Engineering,最清晰的方式是回溯 AI 编程的演进路径。这条路径上有四次关键的抽象跃迁。

第一次跃迁:Prompt Engineering

最早的问题:AI 能力很强,但你得会说它才听得懂。同样一个需求,有人说"帮我写个登录页面",有人说"用 React + TypeScript 写一个包含邮箱验证和 OAuth 的登录组件"——得到的代码质量天差地别。Prompt Engineering 解决的是表达问题。

第二次跃迁:Context Engineering

你写了一个完美的 Prompt,AI 也给出了不错的代码。但它不知道你的项目用了哪个版本的框架,不知道你们团队的代码规范。Context Engineering 应运而生——在 AI 开始工作之前,把所有相关的背景信息送到它眼前。

第三次跃迁:Harness Engineering

有了好的 Prompt 和充分的上下文,AI 写代码的成功率大幅提升。但每一轮"修改、验证、再修改"的循环,仍然是你手动驱动的。Harness 就是一条套在 AI 身上的缰绳——一个外层脚本,负责调用 AI、执行验证、收集结果、决定是否继续循环。

第四次跃迁:Loop Engineering

Harness 是"我为这个任务写一个脚本",Loop 是"我设计一个通用系统让任何任务都能跑"。这是核心区别。

维度Prompt Eng.Context Eng.Harness Eng.Loop Eng.
解决什么问题如何精确表达意图如何让AI看到足够信息如何让AI自动跑验证循环如何设计通用可复用的自主循环
你的角色指令编写者信息组织者脚本编写者系统设计者
代表实践CoT、Few-shotRAG、CLAUDE.mdSWE-agent、AiderClaude Code /loop、Codex
· · ·
多 Agent 循环运行与任务队列

△ Agent 不再只是一次性工具,而是持续运行的后台劳动力

为什么是现在?

2026年6月初,几条发言把这个概念推到了风口上:

  • 6月2日 — Claude Code 负责人 Boris Cherny 在活动中说:"I don't prompt Claude anymore. I have loops running that prompt Claude. My job is to write loops."
  • 6月7日 — OpenAI 的 Peter Steinberger 在 X 上发推:"You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents"——24小时突破500万浏览量
  • 同日 — Google 的 Addy Osmani 发表博文,正式将概念命名为 Loop Engineering

三天之内,概念引爆。背后的技术验证链已经跑了三年多:2024年 SWE-agent 和 Aider 验证了"AI 放进自动循环真的能跑通",2026年2月 Harness Engineering 正式命名,LangChain 实验证明同一个模型换 Harness 架构通过率从 52.8% 跳到 66.5%。模型没变,变的是循环设计。

· · ·

五要素模型

Addy Osmani 给出了 Loop 的五要素模型。这五个要素每一个都对应着 Loop 运行中一个真实的瓶颈:

要素解决的瓶颈类比没有它会怎样
Automations谁来启动循环心跳每次都要人工触发,跟 Harness 无异
Worktrees并行任务互相干扰隔离舱AI 同时改多处代码,冲突不断
Skills项目知识无法累积肌肉记忆每轮循环都从零学起,效率无法提升
ConnectorsAI 无法触碰外部工具手和脚AI 只能"想"不能"做",验证仍需人工
Sub-agentsAI 无法有效检查自己质检员速度越快,次品越多

一个完整的 Loop 运行场景:凌晨2点,Automation 的定时心跳触发了巡检任务。AI 被唤醒,从 Skills 中加载项目规范,通过 Connectors 访问代码库和终端,在独立的 Worktree 中开始工作。它修了一个 bug,跑测试没通过。Sub-agent 的 Reviewer 角色介入,分析失败原因,Builder 换一种修法,再跑测试——通过了。Termination Logic 判断循环结束,提交 PR。

· · ·

Loop 运行的六大组件

五要素回答的是"设计 Loop 需要哪些零件",而运行时需要六个组件:

组件作用设计要点常见失误
Goal定义"完成"长什么样具体、可测试、限定范围目标模糊导致无限循环
Tools让 Agent 能与环境交互覆盖执行、读写、搜索、测试工具不足导致 Loop 只能"猜"
Context管理 Agent 的信息输入压缩历史、结构化日志、按需刷新Token 溢出或信息淹没
Termination决定什么时候停成功条件+失败条件+升级路径只设成功条件,没有失败出口
Error Recovery出错后怎么办区分可恢复/不可恢复同样失败重复同样尝试
Guardrails防止悄悄失控资源类焊死、认知类可插拔两类混在一起
· · ·
从命令行到 Agent 控制台

△ 入口正在从命令行,迁移到可以调度智能体的控制台

四种常见 Loop 模式

模式一:Retry Loop

核心逻辑:错了就再来。AI 生成→验证→失败则反馈→重新生成→再验证→直到通过或达到最大重试次数。

适用场景:修 bug、修 lint 错误,目标明确、验证标准清晰的任务。

陷阱:Thrashing(空转)。连续几轮修改方向一直错,消耗 token 却毫无进展。

模式二:Plan-Execute-Verify

核心逻辑:先想再做再查。AI 先制定计划,按计划执行,执行完后验证整体结果,失败则回到计划阶段调整。

适用场景:跨多文件的重构、新功能开发。

陷阱:Overfitting to Tests。AI 可能为了让测试通过而"作弊"——直接 hardcode 测试用例的期望值。

模式三:Explore-Narrow

核心逻辑:先广后深。AI 先广泛探索代码库理解整体结构,再缩小范围定位到关键代码进行修改。

适用场景:复杂的 bug 排查、性能优化、安全漏洞定位。

陷阱:Context Drift。探索阶段耗时过长,AI 上下文窗口被大量无关信息占据。

模式四:Human-in-the-Loop

核心逻辑:Loop 自动运行,但在特定节点暂停,等待人类确认后再继续。

适用场景:所有生产环境的 Loop——尤其是涉及数据变更和发布操作的。

陷阱:Cognitive Surrender(认知投降)。人类面对 AI 的方案倾向于直接点"确认",久而久之,Human-in-the-Loop 名存实亡。

· · ·
人类调度 AI Agent 舰队

△ 人类的位置上移:从执行者变成目标、权限与责任的设定者

三大风险

① Comprehension Debt(理解债务)

Loop 替你写了大量代码,但你并没有真正理解这些代码。代码库里有大量"你知道它能跑,但不知道它为什么能跑"的部分。理解债务本身不会让系统崩溃——直到有一天你需要修改那些 Loop 生成的代码。

应对:Loop 生成的代码必须经过人类 Code Review;定期做代码审计日。

② Cognitive Surrender(认知投降)

你不再审查 Loop 的输出,只是机械地点"确认"。不是因为输出一定正确,而是因为审查太累了,而 Loop 的输出"看起来总是对的"。

应对:随机抽检 20% 做深度审查;设置"红色按钮"——Loop 超时自动暂停强制审查。

③ Verification Gap(验证缺口)

Loop 的验证手段覆盖不了所有可能的错误类型。测试能验证功能正确性,但验证不了性能退化、安全漏洞、用户体验退化。

应对:在 Verify 阶段加入非功能性检查——性能基准测试、安全扫描、Linter 规则。

· · ·

收束

Loop doesn't know the difference. You do.

Loop 不知道它修的是一个无关紧要的 typo,还是一个可能导致数据泄露的严重 bug。它不知道你点"确认"是因为认真审查过,还是因为习惯。它不知道测试通过了但性能退化了,它只知道"测试通过了"。

Loop 是一个加速器。它能让 AI 编程的效率提升一个数量级——Boris Cherny 一个月 4 万行代码就是证明。但加速器没有方向感。它可以让你跑得更快,也可以让你更快地跑向错误的方向。

Build the loop. But build it like someone who intends to stay the engineer.