你的 Agent 不是不够聪明，是缺一副骨架

顶鎏科技

当 LLM 从聊天工具进化到生产级 Agent，一个事实浮出水面：模型能力只是起点，决定任务成败的是围绕模型的工程架构。OpenAI 和 Anthropic 在 2025-2026 年的工程实践表明，Prompt Engineering 的边际收益正在递减，行业重心已转向 Harness Engineering（脚手架工程）。

一、什么是 Harness？

最简化的定义：

Agent = LLM + Harness

模型是引擎，Harness 是方向盘、刹车、底盘与导航系统的总和。

Harness 不是更复杂的 Prompt，而是一套覆盖任务规划、上下文管理、工具路由、错误回滚、质量评估的完整工程框架。它解决的不是"模型怎么回答得更好"，而是"模型如何在 50 轮对话、8 次工具调用、3 个小时后仍然稳定交付"。

二、Anthropic：薄 Harness 与三角色架构

Anthropic 提出 "Thin Harness"（薄脚手架）策略：Harness 只负责组装提示词、调用模型、执行工具，所有规划与推理推给模型本身。核心信念是——模型越强，脚手架应该越薄。

针对长期运行的应用开发，Anthropic 采用 Planner / Generator / Evaluator 三角色分离：

角色	职责	关键约束
Planner	将模糊需求转化为可执行的技术规格	不能过度规划，避免"Over-specifying upfront causes cascading errors downstream"
Generator	按规格逐步实现功能	总是高估自身质量，需要外部评估
Evaluator	像终端用户一样测试应用，给出诚实反馈	必须与 Generator 分离，不能自评

此外，Anthropic 发现 Claude Sonnet 4.5 存在 "上下文焦虑"（Context Anxiety）：随着上下文填满，Agent 会过早收尾。解决方案不是压缩上下文，而是结构化重置——每个会话新建上下文，通过结构化工件（Artifacts）在会话间传递状态。

三、OpenAI：代码优先的中间路线

OpenAI 的 Agents SDK 采取更务实的中间路线：工作流逻辑用原生 Python 编写，不搞专有 DSL，但引入严格的**优先级栈（Priority Stacks）**和显式的 Agent 交接（Handoff）。

OpenAI 将 Harness 演进描述为四层渐进简化：

层面	过去	现在
推理	精心设计的 Chain-of-Thought 提示链	模型自主规划与反思
工具调用	复杂的函数调度和参数解析	模型原生理解工具定义（MCP 协议）
上下文	精密的 RAG、分块、压缩	更长上下文 + 结构化文件传递
协同	手动编排每一步	模型-Harness 协同训练

OpenAI 的 Codex Agent 将 Chrome DevTools、DOM 快照、日志查询直接接入闭环，实现"复现问题 → 验证修复 → 录制结果 → 提 PR"的完整工作流。

四、OpenAI vs Anthropic：核心分野

维度	Anthropic	OpenAI
Harness 厚度	薄（Thin Harness）	中等（Code-First Guardrails）
核心哲学	信任模型，让模型思考	模型 + 结构性护栏并重
多 Agent 策略	规划/生成/评估三角色分离	Agents SDK 支持多 Agent Handoff
上下文管理	结构化重置（Context Reset）	渐进压缩 + 原生长上下文
安全模型	沙箱 + 代理 + Vault + Scoped Credential	优先级栈 + 显式权限控制

双方的共同底线：模型不是产品，基础设施才是。

五、六大工程共识

Context 管理是核心战场：不是越多越好，而是"在合适的时候给合适的内容"
结构化工件传递上下文：用文件、spec、artifacts 在 Agent 间/会话间传递状态
生成与评估必须分离：Agent 不能评判自己的工作，需要独立 Evaluator
任务分解为可处理块：长期任务必须切片，