• 主页
    • 关于顶鎏
    • 产品定价
    • 登录

    你的 Agent 不是不够聪明,是缺一副骨架

    已定时 已固定 已锁定 已移动 博客
    1 帖子 1 发布者 31 浏览
    正在加载更多帖子
    • 从旧到新
    • 从新到旧
    • 最多赞同
    回复
    • 在新帖中回复
    登录后回复
    此主题已被删除。只有拥有主题管理权限的用户可以查看。
    • A 离线
      顶鎏科技
      最后由 admin 编辑

      当 LLM 从聊天工具进化到生产级 Agent,一个事实浮出水面:模型能力只是起点,决定任务成败的是围绕模型的工程架构。OpenAI 和 Anthropic 在 2025-2026 年的工程实践表明,Prompt Engineering 的边际收益正在递减,行业重心已转向 Harness Engineering(脚手架工程)。

      一、什么是 Harness?

      最简化的定义:

      Agent = LLM + Harness

      模型是引擎,Harness 是方向盘、刹车、底盘与导航系统的总和。

      Harness 不是更复杂的 Prompt,而是一套覆盖任务规划、上下文管理、工具路由、错误回滚、质量评估的完整工程框架。它解决的不是"模型怎么回答得更好",而是"模型如何在 50 轮对话、8 次工具调用、3 个小时后仍然稳定交付"。

      二、Anthropic:薄 Harness 与三角色架构

      Anthropic 提出 "Thin Harness"(薄脚手架)策略:Harness 只负责组装提示词、调用模型、执行工具,所有规划与推理推给模型本身。核心信念是——模型越强,脚手架应该越薄。

      针对长期运行的应用开发,Anthropic 采用 Planner / Generator / Evaluator 三角色分离:

      角色 职责 关键约束
      Planner 将模糊需求转化为可执行的技术规格 不能过度规划,避免"Over-specifying upfront causes cascading errors downstream"
      Generator 按规格逐步实现功能 总是高估自身质量,需要外部评估
      Evaluator 像终端用户一样测试应用,给出诚实反馈 必须与 Generator 分离,不能自评

      此外,Anthropic 发现 Claude Sonnet 4.5 存在 "上下文焦虑"(Context Anxiety):随着上下文填满,Agent 会过早收尾。解决方案不是压缩上下文,而是结构化重置——每个会话新建上下文,通过结构化工件(Artifacts)在会话间传递状态。

      三、OpenAI:代码优先的中间路线

      OpenAI 的 Agents SDK 采取更务实的中间路线:工作流逻辑用原生 Python 编写,不搞专有 DSL,但引入严格的**优先级栈(Priority Stacks)**和显式的 Agent 交接(Handoff)。

      OpenAI 将 Harness 演进描述为四层渐进简化:

      层面 过去 现在
      推理 精心设计的 Chain-of-Thought 提示链 模型自主规划与反思
      工具调用 复杂的函数调度和参数解析 模型原生理解工具定义(MCP 协议)
      上下文 精密的 RAG、分块、压缩 更长上下文 + 结构化文件传递
      协同 手动编排每一步 模型-Harness 协同训练

      OpenAI 的 Codex Agent 将 Chrome DevTools、DOM 快照、日志查询直接接入闭环,实现"复现问题 → 验证修复 → 录制结果 → 提 PR"的完整工作流。

      四、OpenAI vs Anthropic:核心分野

      维度 Anthropic OpenAI
      Harness 厚度 薄(Thin Harness) 中等(Code-First Guardrails)
      核心哲学 信任模型,让模型思考 模型 + 结构性护栏并重
      多 Agent 策略 规划/生成/评估三角色分离 Agents SDK 支持多 Agent Handoff
      上下文管理 结构化重置(Context Reset) 渐进压缩 + 原生长上下文
      安全模型 沙箱 + 代理 + Vault + Scoped Credential 优先级栈 + 显式权限控制

      双方的共同底线:模型不是产品,基础设施才是。

      五、六大工程共识

      1. Context 管理是核心战场:不是越多越好,而是"在合适的时候给合适的内容"
      2. 结构化工件传递上下文:用文件、spec、artifacts 在 Agent 间/会话间传递状态
      3. 生成与评估必须分离:Agent 不能评判自己的工作,需要独立 Evaluator
      4. 任务分解为可处理块:长期任务必须切片,
      1 条回复 最后回复 回复 引用 0

      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

      有了你的建议,这篇帖子会更精彩哦 💗

      注册 登录
      • 第一个帖子
        最后一个帖子