驾驭工程基础101——智能体人工智能的幕后真相

发布日期:2026-07-01 10:46:57   浏览量 :8
发布日期:2026-07-01 10:46:57  
8

驾驭工程 101 — 智能体人工智能(Agentic AI)地毯下的秘密

在上一篇文章中,我们讨论了“从纯大型语言模型(LLM)到智能体人工智能(Agentic AI)”的七层架构。
这次让我们看看每一层内部是如何工作的——以及哪些地方可能出错。

当我们使用 Claude Code、Cursor 或 Hermes 时,我们看到的人工智能(AI)是按步骤工作的:

思考 → 调用工具 → 查看结果 → 继续思考 → 调用工具 → 完成

我们看不到的是途中所有可能出错的地方——并且有人(或代码)在不断处理这些错误。

这就是驾驭工程(Harness Engineering)——一门构建包裹大型语言模型(LLM)的“框架”的学科,它管理一切,使智能体能够在不完美的现实世界中真正运作。

1. 循环(The Loop)—— 驾驭工程的核心

这是每个智能体运行的循环:

while not done and budget_ok:
    response = llm.chat(messages, tools)

    if response.has_tool_calls():
        for tool in response.tool_calls:
            result = execute_tool(tool)
            messages.append(result)
    else:
        return response.text

乍一看,这就像一个普通的 while 循环——但这里是一切可能出错的地方。

真实案例:当人工智能(AI)认为工具调用成功……但实际上并没有

有一次,我让 Hermes 在 LED 网站(泰国强制执行局的资产拍卖网站)上寻找公寓。

人工智能(AI)的计划是:进入网站 → 填写表单 → 点击提交 → 阅读结果。

人工智能(AI)调用了工具 browser_click(ref="submit_button") —— 工具返回“已点击”。

人工智能(AI)很高兴——“搞定!得到结果了”——然后试图从一个并未真正加载出来的页面读取结果。

发生了什么? 工具返回“已点击”,但网页尚未完成提交——JavaScript 仍在运行,文档对象模型(DOM)尚未更改,验证码(CAPTCHA)尚未验证。

驾驭工程必须处理:browser_click 之后,必须有 browser_snapshot 来确认网页确实发生了更改——如果页面未更改,则必须重试或改变策略。

这就是驾驭工程所做的——它不会立即相信工具调用,而是进行验证

2. 令牌预算(Token Budget)—— 就像控制钱包里的钱

每次人工智能(AI)调用工具时,上下文窗口都会变长,因为需要存储:

[用户消息] → [助手工具调用] → [工具结果] → [助手工具调用] → [工具结果] → ...

如果人工智能(AI)运行 50 轮——上下文可能长达 10 万+ 令牌(tokens)。

问题:

  • 💰 花钱——Claude Sonnet 输入价格为每百万令牌 3 美元 = 如果使用 10 万令牌,每次应用程序接口(API)调用就是 0.30 美元
  • 🧠 大型语言模型(LLM)迷失方向

    免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 关注 数据