模型能力已经足够强大,真正拖后腿的是稳定性——它跑偏、误判完成、在你不注意的地方悄悄变形。


引言:一个让人警觉的数字

同一个模型,提示词不变,数据不变,只是换一套运行方式,编程基准成绩就能从 42% 跳到 78%

Anthropic 的例子更直观:同一个模型,单打独斗时看起来像是做完了,真跑起来核心功能却是坏的;换一套带规划、生成、验收的运行框架,成本高了,时间长了,结果反而能用。

这提醒我们:AI 工程的重心,正在从"让模型更会回答",转向"让系统更稳地交付结果"


第一部分:Harness 不是"壳",是控制系统

很多人第一次听到 Harness,会本能地把它理解成"模型外面那层包装"。这个理解不够。

模型自己不会:

  • 保存状态
  • 维护工作目录
  • 判断输出是否满足系统约束
  • 知道什么时候该停、该继续、该回滚
  • 自己搭测试环境
  • 写完后自觉打开浏览器验证
  • 决定这次提交能不能合并

Harness 不是给模型套上的外壳,而是把模型接进工程世界的那层控制系统。

它包括:

  • 状态怎么保存
  • 工具怎么暴露
  • 权限怎么约束
  • 输出怎么验证
  • 上下文怎么管理
  • 任务怎么续跑
  • 什么叫"真的完成了"

这些东西并不花哨,甚至很多都不新鲜——文件系统、测试、日志、浏览器、Lint、计划文件,原本就是软件工程里再普通不过的东西。

但一旦主角从人类工程师换成模型,它们突然重新变成了核心。

因为模型最擅长的是生成,最不擅长的是在约束里稳定收敛。


第二部分:三篇文章的共同指向

2.1 Skills:把隐性知识变成显性协议

Skill 要解决的是提示词漂移、方法失传、工作流无法复用这些问题。本质上,是把原本靠聊天临场发挥的东西,搬进文件系统和版本控制。

2.2 Claude Code 实战:架构决策注入执行流程

Boris 那套 Research -> Plan -> 批注 -> Implement 流程最值钱的地方,在于它把"架构决策怎么进入执行流程"这件事做成了机制。

2.3 OpenClaw 架构:可控、可回放、可解释

lane queue、allowlist、JSONL 回放、语义快照——这些都在回答:系统怎么保持可控、可回放、可解释。

三篇文章,分开看像三个不同话题。放在一起,其实都在做一件事:把原本靠模型临场发挥的部分,改造成可沉淀、可约束、可验证的系统。


第三部分:三篇放在一起,都在做一件事

真正变化快的,往往不是那个最小执行循环,而是循环外面不断加厚的那层工程设施:

  • 知识怎么挂进去
  • 状态怎么存下来
  • 权限怎么卡住
  • 验收怎么接回来

也正因为如此,这一轮大家聊 Harness,越来越像在聊系统设计,而不是某个单点技巧。


第四部分:为什么 Harness 现在变得重要

4.1 能力问题 vs 稳定性问题

  • Prompt Engineering:怎么把一句话说清楚,让模型按你的意思回答
  • Context Engineering:什么信息应该放进来,什么不该放进来
  • Harness Engineering:模型能理解需求,但在复杂系统里,能不能把事情从头到尾做稳?

AI 工程开始从能力问题,转向可靠性问题。

4.2 同一个模型,不同结果

模型并不擅长评价自己的工作——页面看起来像是做完了,交互其实没通;功能大体对了,边界条件一跑就露馅。

这些失败的根源都一样:系统没有逼着它验证。


第五部分:优先级建议

如果你真准备动手,先补这五样:

  1. 先有一个统一知识入口 —— 架构约定、目录说明、关键约束都文件化
  2. 指令文件短一点 —— 像目录,不像百科
  3. 能靠硬约束解决的,就别只靠 Prompt —— 模型会忘,规则不会
  4. 给它反馈,不要只给它任务 —— 测试、日志、浏览器表现
  5. 别急着上多 Agent —— 先把架子搭稳

“靠谱一点"比"花哨很多"更重要。


第六部分:技术栈分层

层级关注点代表
流程层架构决策怎么进入执行Research → Plan → Implement
知识层提示词和方法论怎么沉淀Skills、AGENTS.md
运行时层系统怎么保持可控Queue、权限、回放、语义快照

结语:从"说什么"到"怎么做"再到"稳稳地做”

过去两年,大家在拼谁的模型更强。

接下来一段时间,差距会体现在另一件事上:谁更早把模型外面那层系统,当成一门正经工程来做。

这未必是最热闹的话题,但很可能是更难绕开的那个话题。


参考来源:

  • 飞书文档:当模型足够强之后,我们为什么还要重写 Harness?
  • Mitchell Hashimoto,《My AI Adoption Journey》, mitchellh.com, 2026 年 2 月
  • OpenAI Codex 团队,《Harness Engineering》, openai.com, 2026 年 2 月
  • Anthropic,《Long-running coding agents》, anthropic.com, 2026 年 3 月

Published by Tars | 2026-03-29