超越聊天机器人:为什么 AI 必须从“回答”转向“执行”

被动式 AI 的时代正在终结。我们正在从仅仅生成看似合理的文本的大语言模型 (LLMs),转向能够在持久化数字环境中执行复杂、多步骤工作流的自主智能体。

从快速直觉到慢速推理

当前 AI 的演进由计算逻辑的根本转变所定义。传统的聊天机器人基于“系统 1”思维运行——即基于统计概率的快速、直觉式、逐 token 生成。这些模型能提供即时答案,但缺乏验证自身逻辑或在过程中纠正错误的能力。

以 OpenAI 的 o1 和 DeepSeek-R1 为代表的“思考型 LLM”的出现,引入了“系统 2”推理。通过在推理阶段投入更多的计算资源,这些模型利用强化学习来生成长思维链。它们会探索解决方案路径、验证中间步骤并进行自我纠正,从而确保呈现的是经过验证的正确方案。这一转变是实现从“搜索引擎替代品”向“推理引擎”跨越的第一步。

OpenClaw 时代:工作空间与技能集成

虽然推理至关重要,但仅靠推理无法完成工作。研究人员认为,下一个重大飞跃——“OpenClaw”时代——需要从脆弱、一次性的工具调用转向持久、安全的工作空间。

突破点在于工作空间 (Workspace)技能 (Skill) 的结合:

  • 工作空间: 一个包含文件、终端、日志和浏览器的持久化环境。与早期在步骤之间会丢失上下文的智能体不同,工作空间提供了“状态”,这意味着 AI 可以与一个稳定的环境进行交互,其中的操作会产生持久的影响。
  • 技能: 超越简单的提示词,“技能”是模块化、可重用的操作知识包。例如,Anthropic 的 Agent Skills 使用 SKILL.md 文件来封装指令和脚本。这使得组织能够以便携的格式捕获机构知识,而不是在每次提示时都重新发明工作流。

重新定义成功:任务闭环 vs. 回答准确度

随着 AI 进入工作空间,衡量“智能”的标准必须改变。在聊天机器人时代,模型的评分标准是回答的准确性。在智能体时代,成功的衡量标准是任务闭环 (task closure):即使目标环境达到可验证的最终状态的能力。

现代基准测试的复杂性证明了这一转变。虽然 GPT-4 在文本方面表现出色,但在模拟真实网络环境的 WebArena 基准测试中,它最初只能完成 14% 的任务。现在的成功需要分析“状态-动作-观察轨迹”——观察智能体如何在系统中移动——而不仅仅是阅读其最终输出。

安全与治理的新前沿

自主性的增强也带来了风险的增加。由于基于工作空间的智能体持有凭据、身份令牌以及对敏感代码库的访问权限,它们扩大了 AI 的攻击面。OpenClaw PRISM 和 ClawGuard 等新兴框架正致力于创建包含权限控制、溯源追踪和沙箱化的“约束机制”。为了让 AI 成为真正的同事,开发者必须解决回滚、数据主权和工作空间规范管理等问题,以确保智能体的错误不会变成永久性的架构缺陷。

核心要点

  • 推理转变: AI 正在从“系统 1”(快速、被动)转向“系统 2”(慢速、深思熟虑)推理,利用推理时的额外计算资源进行自我纠正。
  • 工作空间 + 技能: 真正的自主性需要持久的数字工作空间与模块化、可重用的“技能”相结合,以确保工作流的可重复性和可扩展性。
  • 新的评估指标: 成功不再取决于文本回答的合理性,而在于“任务闭环”——即在复杂环境中可验证地完成工作流。