2026世界杯亚盘 AI胜仗率从20%飙到100%！只需一个Harness文献

来源：未知作者：admin 发布时间：2026-05-25 14:22 浏览：146

沙巴体育中国官网入口

新智元报说念

【新智元导读】Anthropic实锤：Claude裸跑模子，9好意思元全废；然而套上Harness花200好意思元成果顺利升空。AI成果不好？别再纠结换模子了！OpenAI和Anthropic都在用的Harness工程，一文讲透。

最近，AI圈子里一个逃不开的话题等于Harness。

以至，连DeepSeek最近也在驱动招聘Harness工程师。

那么，到底什么是Harness？

Harness，围绕AI编程智能体搭建的一整套工程基础关节，由五个子系统构成：指示、器具、环境、状况、反应。

为什么值得特意讲它？

因为2026年前后，Anthropic和OpenAI险些同期在各自的工程实践里给出了归拢个论断——AI编程智能体时时失败，问题不在模子，在模子以外的Harness。

两家分歧用一组对简直践当笔据。先看数据。

两组数据对照

Anthropic对简直践——归拢个Opus 4.5模子，归拢皆编程题：

多花的191好意思元，全花在考据轮回上——每写一段代码就跑测试，欠亨过就改，直到果然通过。

OpenAI百万行实践，Codex团队在果然仓库上考据：

实践只改了一件事——仓库根目次加了一个AGENTS.md文献，不到100行markdown。

Harness是什么

Harness不是器具，也不是提醒词妙技，是围绕智能体的一整套工程基础关节，由五个子系统构成，每一个对应一种具体失败时势。

指示子系统（Instructions）

仓库根目次的一个markdown文献——OpenAI阵营叫AGENTS.md，Anthropic阵营叫CLAUDE.md。

Codex、Claude Code、Cursor启动时自动读取并注入「系统提醒词」。

措置：智能体不知说念名堂商定，瞎写代码（立场不一致、用错包管制器、顺手扩充当意生号召）。

不到15行，把名堂商定从反复重申酿成启动时自动注入。

器具子系统（Tools）

完结智能体能调用哪些号召。

Claude Code用.claude/settings.json，Codex用~/.codex/config.toml。

措置：越权操作（rm-rf误删、gitpush--force掩盖远端、不该联网时调外部API）。

允许的顺利跑，退却的顺利拒，灰色地带的弹证据。

环境子系统（Environment）

锁定依赖版块、运行时建设、数据库状况。

扫尾：setup.sh/Dockerfile/devcontainer.json。

措置：这台机器上能跑的特地环境（腹地通过，CI一跑就废）。

重要一滑--frozen-lockfile——智能体无法私自升级任何依赖。

状况子系统（State）

把跨会话历程、断点、未完成任务握久化到PROGRESS.md，新会话第一件事读它。

措置：跨会话失忆（第二个会话从零驱动，写出和第一个会话冲破的代码）。

在AGENTS.md固化商定：新会话第一件事读PROGRESS.md；任务完成或断点变化，立即回写。

反应子系统（Feedback）

机器可扩充的考据号召——测试、lint、类型查抄、构建。

智能体宣布完成前必须跑通，退出码不为0就不算完成。

措置：过早宣宣布捷（说Done!但一滑跑欠亨）——Anthropic 9好意思元裸跑实践的中枢死因。

三莽撞命失败时势

Anthropic和OpenAI的实践，2026世界杯即时比分不谋而合指向了智能体最常见的三种致命失败时势。

过早宣宣布捷

场景：智能体写完500行功能，输出已完成。合并代码——CI红屏，type check报12个错，单测一个没跑过。

根因：莫得强制反应轮回。判定来自自我嗅觉，不来自机器可考据的事实。

解法：反应子系统。把判定权叮咛给退出码——退出码≠0，任务≠完成。

高下文错愕（ContextAnxiety）

场景：长任务作念到70%，高下文Token数快撑满窗口。智能体驱动赶历程——跳过测试、删规模处理、写stub收尾、宣布完成。

根因：莫得断点续传。感知到高下文压力时，智能体会试图在这个会话内作念完通盘事，哪怕代价是质地坍塌。

解法：状况子系统+主动重启。每完成一个子任务立即回写PROGRESS.md；高下文Token用量超70%，主动停驻、写完断点、开新会话。

跨会话失忆（Cross-SessionAmnesia）

场景：第一个会话写了用户模块，第二个会话写订单模块——智能体不知说念用户模块已存在，又写了一遍getUserById，跟前一版接口签名冲破。

根因：莫得握久化状况+莫得首读商定。

解法：状况子系统+指示子系统组合。PROGRESS.md顾惜已完胜仗能清单；AGENTS.md写明开会话第一件事读PROGRESS.md；冲破时以代码为准——仓库本人是惟一事实着手。

五步从零搭一个Harness

搭建一个Harness，并不难。

底下五步用文本剪辑器即可完成，加起来不杰出200行建设。

第1步·根目次建AGENTS.md

touch AGENTS.md。至少三块：名堂阐扬、退却操作、完成界说。

第2步·配permissions

.claude/settings.json或~/.codex/config.toml。最小两条：

第3步·写setup.sh锁环境

已有Dockerfile/devcontainer.json可跳过。

不然写一个setup.sh，把通盘版块写死。最重要一滑：pnpminstall--frozen-lockfile。

第4步·建PROGRESS.md

touchPROGRESS.md，四块：已完成、进行中、待办、已知问题。提交进git，当成名堂自身的一部分顾惜。

第5步·在AGENTS.md末尾固化完成界说

写明pnpm type check/test/lint/build四个号召，退出码不为0就不算完成。要是名堂还莫得这些号召，今天就配上。

莫得反应轮回，Harness等于没装——这是Anthropic 9好意思元实践的中枢警戒：前四步全作念对，第五步缺位，照旧全废。

两家同归殊涂

昔日一年通盘东说念主都在追下一个更强的模子。

2026年，Anthropic和OpenAI用两组不同的实践给出了归拢个谜底——别先换模子，先把Harness装好。

模子智力决定上限，Harness决定你能用到上限的几成。

莫得Harness，Opus 4.5跑出的代码连编译都过不去；有了Harness，小一档的模子也能厚实托付。

下一个更强的模子虽然会再抬一截上限。但今天连Harness都没装，下一个模子来了，胜仗率照旧停在20%。

与其等下一个模子，目下就装配Harness。

参考府上：

https://walkinglabs.github.io/learn-harness-engineering/en/

剪辑：大卫