当 LLM 从聊天工具进化到生产级 Agent,一个事实浮出水面:模型能力只是起点,决定任务成败的是围绕模型的工程架构。OpenAI 和 Anthropic 在 2025-2026 年的工程实践表明,Prompt Engineering 的边际收益正在递减,行业重心已转向 Harness Engineering(脚手架工程)。
一、什么是 Harness?
最简化的定义:
Agent = LLM + Harness
模型是引擎,Harness 是方向盘、刹车、底盘与导航系统的总和。
Harness 不是更复杂的 Prompt,而是一套覆盖任务规划、上下文管理、工具路由、错误回滚、质量评估的完整工程框架。它解决的不是"模型怎么回答得更好",而是"模型如何在 50 轮对话、8 次工具调用、3 个小时后仍然稳定交付"。
二、Anthropic:薄 Harness 与三角色架构
Anthropic 提出 "Thin Harness"(薄脚手架)策略:Harness 只负责组装提示词、调用模型、执行工具,所有规划与推理推给模型本身。核心信念是——模型越强,脚手架应该越薄。
针对长期运行的应用开发,Anthropic 采用 Planner / Generator / Evaluator 三角色分离:
角色
职责
关键约束
Planner
将模糊需求转化为可执行的技术规格
不能过度规划,避免"Over-specifying upfront causes cascading errors downstream"
Generator
按规格逐步实现功能
总是高估自身质量,需要外部评估
Evaluator
像终端用户一样测试应用,给出诚实反馈
必须与 Generator 分离,不能自评
此外,Anthropic 发现 Claude Sonnet 4.5 存在 "上下文焦虑"(Context Anxiety):随着上下文填满,Agent 会过早收尾。解决方案不是压缩上下文,而是结构化重置——每个会话新建上下文,通过结构化工件(Artifacts)在会话间传递状态。
三、OpenAI:代码优先的中间路线
OpenAI 的 Agents SDK 采取更务实的中间路线:工作流逻辑用原生 Python 编写,不搞专有 DSL,但引入严格的**优先级栈(Priority Stacks)**和显式的 Agent 交接(Handoff)。
OpenAI 将 Harness 演进描述为四层渐进简化:
层面
过去
现在
推理
精心设计的 Chain-of-Thought 提示链
模型自主规划与反思
工具调用
复杂的函数调度和参数解析
模型原生理解工具定义(MCP 协议)
上下文
精密的 RAG、分块、压缩
更长上下文 + 结构化文件传递
协同
手动编排每一步
模型-Harness 协同训练
OpenAI 的 Codex Agent 将 Chrome DevTools、DOM 快照、日志查询直接接入闭环,实现"复现问题 → 验证修复 → 录制结果 → 提 PR"的完整工作流。
四、OpenAI vs Anthropic:核心分野
维度
Anthropic
OpenAI
Harness 厚度
薄(Thin Harness)
中等(Code-First Guardrails)
核心哲学
信任模型,让模型思考
模型 + 结构性护栏并重
多 Agent 策略
规划/生成/评估三角色分离
Agents SDK 支持多 Agent Handoff
上下文管理
结构化重置(Context Reset)
渐进压缩 + 原生长上下文
安全模型
沙箱 + 代理 + Vault + Scoped Credential
优先级栈 + 显式权限控制
双方的共同底线:模型不是产品,基础设施才是。
五、六大工程共识
Context 管理是核心战场:不是越多越好,而是"在合适的时候给合适的内容"
结构化工件传递上下文:用文件、spec、artifacts 在 Agent 间/会话间传递状态
生成与评估必须分离:Agent 不能评判自己的工作,需要独立 Evaluator
任务分解为可处理块:长期任务必须切片,