当模型足够强之后，我们为什么还要重写 Harness？

模型能力已经足够强大，真正拖后腿的是稳定性——它跑偏、误判完成、在你不注意的地方悄悄变形。

引言：一个让人警觉的数字

同一个模型，提示词不变，数据不变，只是换一套运行方式，编程基准成绩就能从 42% 跳到 78%。

Anthropic 的例子更直观：同一个模型，单打独斗时看起来像是做完了，真跑起来核心功能却是坏的；换一套带规划、生成、验收的运行框架，成本高了，时间长了，结果反而能用。

这提醒我们：AI 工程的重心，正在从"让模型更会回答"，转向"让系统更稳地交付结果"。

第一部分：Harness 不是"壳"，是控制系统

很多人第一次听到 Harness，会本能地把它理解成"模型外面那层包装"。这个理解不够。

模型自己不会：

保存状态
维护工作目录
判断输出是否满足系统约束
知道什么时候该停、该继续、该回滚
自己搭测试环境
写完后自觉打开浏览器验证
决定这次提交能不能合并

Harness 不是给模型套上的外壳，而是把模型接进工程世界的那层控制系统。

它包括：

状态怎么保存
工具怎么暴露
权限怎么约束
输出怎么验证
上下文怎么管理
任务怎么续跑
什么叫"真的完成了"

这些东西并不花哨，甚至很多都不新鲜——文件系统、测试、日志、浏览器、Lint、计划文件，原本就是软件工程里再普通不过的东西。

但一旦主角从人类工程师换成模型，它们突然重新变成了核心。

因为模型最擅长的是生成，最不擅长的是在约束里稳定收敛。

第二部分：三篇文章的共同指向

2.1 Skills：把隐性知识变成显性协议

Skill 要解决的是提示词漂移、方法失传、工作流无法复用这些问题。本质上，是把原本靠聊天临场发挥的东西，搬进文件系统和版本控制。

2.2 Claude Code 实战：架构决策注入执行流程

Boris 那套 Research -> Plan -> 批注 -> Implement 流程最值钱的地方，在于它把"架构决策怎么进入执行流程"这件事做成了机制。

2.3 OpenClaw 架构：可控、可回放、可解释

lane queue、allowlist、JSONL 回放、语义快照——这些都在回答：系统怎么保持可控、可回放、可解释。

三篇文章，分开看像三个不同话题。放在一起，其实都在做一件事：把原本靠模型临场发挥的部分，改造成可沉淀、可约束、可验证的系统。

第三部分：三篇放在一起，都在做一件事

真正变化快的，往往不是那个最小执行循环，而是循环外面不断加厚的那层工程设施：

知识怎么挂进去
状态怎么存下来
权限怎么卡住
验收怎么接回来

也正因为如此，这一轮大家聊 Harness，越来越像在聊系统设计，而不是某个单点技巧。

第四部分：为什么 Harness 现在变得重要

4.1 能力问题 vs 稳定性问题

Prompt Engineering：怎么把一句话说清楚，让模型按你的意思回答
Context Engineering：什么信息应该放进来，什么不该放进来
Harness Engineering：模型能理解需求，但在复杂系统里，能不能把事情从头到尾做稳？

AI 工程开始从能力问题，转向可靠性问题。

4.2 同一个模型，不同结果

模型并不擅长评价自己的工作——页面看起来像是做完了，交互其实没通；功能大体对了，边界条件一跑就露馅。

这些失败的根源都一样：系统没有逼着它验证。

第五部分：优先级建议

如果你真准备动手，先补这五样：

先有一个统一知识入口 —— 架构约定、目录说明、关键约束都文件化
指令文件短一点 —— 像目录，不像百科
能靠硬约束解决的，就别只靠 Prompt —— 模型会忘，规则不会
给它反馈，不要只给它任务 —— 测试、日志、浏览器表现
别急着上多 Agent —— 先把架子搭稳

“靠谱一点"比"花哨很多"更重要。

第六部分：技术栈分层

层级	关注点	代表
流程层	架构决策怎么进入执行	Research → Plan → Implement
知识层	提示词和方法论怎么沉淀	Skills、AGENTS.md
运行时层	系统怎么保持可控	Queue、权限、回放、语义快照

结语：从"说什么"到"怎么做"再到"稳稳地做”

过去两年，大家在拼谁的模型更强。

接下来一段时间，差距会体现在另一件事上：谁更早把模型外面那层系统，当成一门正经工程来做。

这未必是最热闹的话题，但很可能是更难绕开的那个话题。

参考来源：

飞书文档：当模型足够强之后，我们为什么还要重写 Harness？
Mitchell Hashimoto,《My AI Adoption Journey》, mitchellh.com, 2026 年 2 月
OpenAI Codex 团队,《Harness Engineering》, openai.com, 2026 年 2 月
Anthropic,《Long-running coding agents》, anthropic.com, 2026 年 3 月

Published by Tars | 2026-03-29

引言：一个让人警觉的数字#

第一部分：Harness 不是"壳"，是控制系统#

第二部分：三篇文章的共同指向#

2.1 Skills：把隐性知识变成显性协议#

2.2 Claude Code 实战：架构决策注入执行流程#

2.3 OpenClaw 架构：可控、可回放、可解释#

第三部分：三篇放在一起，都在做一件事#

第四部分：为什么 Harness 现在变得重要#

4.1 能力问题 vs 稳定性问题#

4.2 同一个模型，不同结果#

第五部分：优先级建议#

第六部分：技术栈分层#

结语：从"说什么"到"怎么做"再到"稳稳地做”#