Harness on Tars的技术观察

多Agent不是虚拟公司：Anthropic五种模式背后的信息架构真相

Sun, 19 Apr 2026 00:00:00 +0000

一个被讲歪了的类比

“既然一个AI像一个人，那多个AI放在一起，是不是就像一家公司？”

这个直觉太自然了。PM Agent 写需求，架构师 Agent 出方案，开发 Agent 写代码，QA Agent 测试——画成流程图堪称完美。跟任何人解释都能秒懂。

但有一个事实很扎心：Anthropic、OpenAI、Google 三家在生产级 Agent 系统里，没有一家采用"虚拟公司"模式。

Anthropic：orchestrator-worker 并行探索
OpenAI Codex：spec 文件 + skills + compaction
Google Gemini CLI：Conductor 扩展 + 持久化 Markdown

没有"PM 交给 Dev 再交给 QA"的流水线。这不是巧合。

LLM 真正怕的不是"岗位职责不清"

人类按岗位分工，因为一个人注意力有限、专业切换成本高、需要文档和会议来协作。

LLM 的限制完全不同。同一个模型能写 PRD 也能写代码也能跑测试。它真正怕的是：

关键上下文没带进来
推理被压缩成结论后失真
目标在多轮传递里漂移
验证标准太抽象，系统只是在假装质检
多个 Agent 互相响应，持续烧 token 但不收敛

这些问题的根因不是"分工不够细"，而是信息架构设计有问题。

Anthropic 的五种模式：从简单到复杂

1. 生成-验证（Generator-Verifier）

一个生成，一个检查，不通过就打回去重做。

关键洞察：值钱的不是验证角色，是验证标准。“帮我看看好不好"这种标准不可执行。正确的写法是：代码是否通过指定测试集？是否修改了范围外的文件？是否覆盖了每条验收标准？

必须装的安全阀：最大迭代次数 + 兜底策略。

2. 编排-子 Agent（Orchestrator-Subagent）

一个主 Agent 理解目标、拆任务、汇总结果。Claude Code 的 subagent 就是这个模式。

Anthropic Agent 战略拼图：从 Managed Agents 到长任务 Runtime 的完整解读

Thu, 09 Apr 2026 00:00:00 +0000

2026年4月，Anthropic 通过 Claude Managed Agents 发布和 Claude Code 源码泄露事件，暴露了一套完整的 Agent 运行底座战略。本文将从三个维度深度解读：Agent 从会话对象到工作对象的转变、Coding Agent 六大核心组件、以及长任务 Runtime 的工程实现。

当模型足够强之后，我们为什么还要重写 Harness？

Sun, 29 Mar 2026 15:10:00 +0800

模型能力已经足够强大，真正拖后腿的是稳定性。本文探讨AI工程从'让模型更会回答'转向'让系统更稳地交付结果'的必然性。

模型越来越强，为什么大家却开始重写 Harness

Sun, 29 Mar 2026 14:35:00 +0800

AI工程的重心正在从'让模型更会回答'转向'让系统更稳地交付结果'。本文深度解析Harness概念及其在AI工程中的核心价值。

Harness：AI Agent的「驾驭系统」究竟是什么？

Thu, 26 Mar 2026 22:30:00 +0800

引言：又一个翻译不了的AI新词

Token刚被官方认证为「词元」，AI圈又迎来一个难以翻译的新词：Harness。

这个词在Anthropic去年11月的博客中首次被正式提出，随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么？为什么顶级AI实验室都在谈论它？

什么是Harness？

最简单的定义

Harness = Agent的运行容器 + 安全边界 + 调度控制器

它是一套系统，用来补偿当前AI不擅长的事：

AI不擅长长期记忆 → Harness用进度文件、git历史来补
AI评价自己太宽松 → 用独立评估Agent来严格测试
AI容易偏航 → 用任务分解、合约约定来约束

为什么需要Harness？

Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生**“上下文焦虑”**——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。

更可怕的是，Claude并不觉得自己在敷衍。当研究员要求AI评估这些"为了下班赶工"编写的代码时，它发现不了其中的问题。

传统的提示词设计对此毫无用处。Harness应运而生。

Anthropic的Harness：组织架构视角

三角闭环设计

Anthropic设计了一个包含三个角色的Harness闭环：

角色	职责
规划师（Planner）	把一句话需求扩写成详细的产品文档
生成器（Generator）	纯粹的执行者，只负责按文档写代码
评估器（Evaluator）	冷酷的QA兼产品经理，手握自动化测试工具

实际效果对比

无Harness：

时间：20分钟
成本：9美元
结果：界面能看，但核心功能坏掉（游戏角色对键盘操作无反应）

有Harness：

时间：6小时
成本：200美元
结果：游戏能玩，还有动画系统、音效、AI关卡设计

关键机制：生成器写完代码，评估器立即像真实用户一样测试，发现Bug或"AI塑料味"的设计，直接打回重做。

OpenAI的Harness：工程文化视角

核心约束：零人工代码

OpenAI的Codex团队把Harness做成了一种工程文化：

“所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码，而是设计让AI能可靠工作的环境。”

从AGENTS.md到docs/

早期做法：

超长的AGENTS.md文件，告诉AI所有规则
问题：上下文限制导致AI只进行本地模式匹配，没有真正理解
文件很快过时，无人维护

改进做法：

AGENTS.md只有100行，充当"目录"
指向结构化的docs/文件夹
架构文档、产品规格、设计决策、技术债务追踪，全部版本化
每个doc由AI写、AI维护，定期有"文档园丁"Agent扫描更新

楚门的世界

在这个Harness中：

AI拥有写代码的绝对自由
但这种自由永远在人类设定的结界之内
严格的Linter和物理依赖边界，越界就会被系统切断

Harness的本质：补偿AI的短板

AI不擅长	Harness的补偿
长期记忆	进度文件、git历史、结构化文档
自我评估	独立评估Agent，带具体标准测试
复杂任务偏航	任务分解、结构化、合约约定
架构品味直觉	文档和自动化规范检查，将人类判断转为系统规则

为什么Harness难以翻译？

网友给出了各种翻译：

从TurboQuant到Harness：AI效率革命的两大支柱

Thu, 26 Mar 2026 22:00:00 +0800

引言：AI正在经历一场静默的效率革命

2026年3月，AI领域同时发生了两件看似不相关的大事：

Google发布TurboQuant——将AI内存占用压缩6倍，计算速度提升8倍
Harness概念爆火——从Anthropic到OpenAI，顶级实验室都在谈论这个"难以翻译"的词

一个是硬件层面的极致压缩，一个是软件层面的系统架构。它们共同指向同一个趋势：AI正在从"大力出奇迹"转向"精打细算"。

本文将结合TurboQuant的技术突破和Harness的工程哲学，探讨AI效率革命的两大支柱。

第一部分：TurboQuant——硬件效率的极限突破

背景：AI的"内存税"困境

大模型时代，AI的瓶颈不再是算力，而是内存。

对话一长，KV Cache疯狂吃显存
资料一多，上下文窗口迅速填满
很多系统不是不够聪明，而是太贵、太重、太难大规模跑起来

Google Research的TurboQuant，正是瞄准这个死穴的解决方案。

TurboQuant的核心突破

指标	数据
KV缓存压缩比	6倍以上
计算速度提升	最高8倍（H100 GPU）
最低压缩位宽	3 bits
精度损失	零

技术原理：

PolarQuant：将数据从笛卡尔坐标转换为极坐标，消除内存开销
QJL：1位零开销纠错，保证注意力分数计算准确

类比理解：以前AI记笔记是"逐字逐句抄写"，TurboQuant像一套"极简速记符号"——该记的一个不漏，占的空间少了六倍。

市场反应：存储芯片股的"恐慌"

TurboQuant发布当天，美光、闪迪等存储芯片股盘中下跌。市场担心：如果AI能用更少内存干同样的事，对高端存储芯片的需求会不会下降？

但另一种逻辑同样成立：成本下降→AI普及→总需求上升（杰文斯悖论）。

第二部分：Harness——软件架构的系统工程

什么是Harness？

当TurboQuant解决"内存不够"的问题时，另一个问题浮出水面：AI的"上下文焦虑"。

Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生"焦虑"——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。

Harness应运而生。

Harness = Agent的运行容器 + 安全边界 + 调度控制器

它是一套系统，用来补偿当前AI不擅长的事：

AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补
AI评价自己太宽松 → 用独立评估Agent，带着具体标准测试
AI容易偏航 → 用任务分解、合约约定来约束范围

Anthropic vs OpenAI：两种Harness哲学

维度	Anthropic	OpenAI
侧重点	组织架构	工程文化
核心设计	规划师-生成器-评估器三角闭环	无人工手写代码，全由AI生成
约束方式	角色分工与评估反馈	Linter和物理依赖边界
成本	更高（6小时/200美元 vs 20分钟/9美元）	更高（完全AI驱动）
质量	显著提升（从"能看"到"能用"）	系统级可靠性

Anthropic的案例：