FullAgenticStack 宣言

每个人都在尝试构建智能体。

人们谈论提示词、工具和大语言模型 (LLMs)。他们专注于智能体调用 API。但这仅仅是个开始。

几年后,问题将会改变。你不会再问如何构建一个智能体,而是会问如何构建由智能体组成的可靠系统。

智能体不是一个系统。智能体只是更大架构中的一部分。

下一阶段的软件需要基础设施。智能体、人类和服务必须在信任、记忆和证明的基础上进行交互。我将其称为 FullAgenticStack。

构建智能体正变得越来越容易。这制造了一个陷阱。人们认为智能体软件仅仅是 LLM 加上工具和记忆。

这远远不够。

一个具备工具调用能力的聊天机器人不是一个系统。一个提示词链也不是一种架构。

真正的难题不在于让一个智能体完成一次任务,而在于让智能体系统在现实世界中安全、重复地运行。

你必须回答这些问题:

  • 如何编排智能体?
  • 如何对它们进行身份验证?
  • 如何审计它们的行为?
  • 如何限制它们的权限?
  • 发生故障后如何恢复状态?
  • 智能体协作时如何防止混乱?

这些不是小问题。它们是基础。

FullAgenticStack 为智能体软件在生产环境中的运行提供了环境。它包括:

  • 人类与智能体身份
  • 身份验证与授权
  • 权限与能力
  • 状态与记忆
  • 事件历史与可观测性
  • 恢复与回滚
  • 执行证明
  • 零信任交互

工具调用仅仅是一个接口。它无法解决身份问题,也无法解决责任问题。

如果一个智能体购买了产品,是谁授权的?如果一个智能体失败了,你如何恢复?如果一个智能体造成了损害,你如何证明发生了什么?

这些是工程需求。

下一个互联网将由代表个人和公司行事的智能体组成。智能体将进行谈判、调度、购买和销售。

为了实现这一点,智能体不能是隐形的脚本。它们必须是可识别、可观测且可证明的。

你需要的不是提示词栈 (prompt stack),而是 FullAgenticStack。

不要只看表面。目标不在于智能体是否能调用工具,而在于智能体是否能在可信系统中存在。

智能体不是终点。它们是一个新架构的起点。

全栈智能体技术栈宣言:智能体不仅仅是 LLM

如果你认为智能体(Agent)仅仅是发送给 GPT-4 的一个提示词(Prompt),那么你对智能体的理解还停留在表面。

随着 AI 领域从“聊天机器人”向“自主智能体”的演进,我们正在见证一种范式的转变。仅仅拥有一个强大的大语言模型(LLM)是不够的。要构建一个真正能够解决复杂任务、具备自主性和可靠性的智能体,你需要构建一个完整的智能体技术栈(Agentic Stack)

本宣言旨在定义这个技术栈的各个层级,并阐明为什么智能体不仅仅是 LLM。


智能体不仅仅是 LLM

LLM 是智能体的核心引擎,但它不是智能体本身。

如果把智能体比作一个人,LLM 就像是大脑中的推理能力。虽然推理能力至关重要,但一个人如果没有记忆、没有感官、没有手脚,也无法在现实世界中采取行动或完成任务。

一个真正的智能体需要具备以下五个关键层级:

1. 大脑 (The Brain: The LLM)

这是技术栈的最底层,也是最核心的部分。LLM 负责:

  • 推理 (Reasoning): 理解指令并逻辑化地拆解任务。
  • 决策 (Decision Making): 在给定的选项中选择下一步行动。
  • 语言理解与生成 (Language Understanding & Generation): 作为与其他系统和人类沟通的接口。

然而,LLM 本身是静态的,它受限于训练数据和上下文窗口。为了克服这些限制,我们需要构建其他层级。

2. 规划 (Planning)

规划层负责将复杂的、模糊的目标分解为可执行的步骤。这包括:

  • 任务分解 (Task Decomposition): 将大目标拆解为子任务(例如使用 Chain-of-Thought 或 Tree-of-Thoughts 技术)。
  • 自我反思 (Self-Reflection): 智能体需要能够评估自己的计划,识别错误并进行修正(例如使用 ReAct 模式)。
  • 动态调整 (Dynamic Adjustment): 根据环境反馈实时调整后续步骤。

3. 记忆 (Memory)

没有记忆,智能体就无法维持一致性或从经验中学习。记忆分为两个维度:

  • 短期记忆 (Short-term Memory): 利用 LLM 的上下文窗口(Context Window)来存储当前对话或任务的即时信息。
  • 长期记忆 (Long-term Memory): 利用向量数据库(Vector Databases)和 RAG(检索增强生成)技术,让智能体能够检索并利用过去存储的海量知识和历史经验。

4. 工具与行动 (Tools & Action)

这是智能体与外部世界产生交互的手段。通过调用 API、执行代码或操作软件,智能体可以超越单纯的文本生成:

  • 工具使用 (Tool Use/Function Calling): 调用搜索引擎、计算器、数据库查询或第三方 API。
  • 代码执行 (Code Execution): 编写并运行 Python 脚本来处理数据或解决数学问题。
  • 环境交互 (Environment Interaction): 在操作系统、浏览器或特定软件环境中执行操作。

5. 环境 (Environment)

环境是智能体运行的舞台。它定义了智能体可以观察到的信息以及它可以施加影响的范围。环境可以是:

  • 数字环境: 互联网、文件系统、数据库、软件应用。
  • 物理环境: 通过机器人硬件与现实世界交互。

智能体通过感知(Perception)观察环境,通过行动(Action)改变环境,并根据环境的变化形成反馈循环(Feedback Loop)


总结:从提示词工程到系统工程

构建智能体的过程正在从简单的“提示词工程(Prompt Engineering)”转向复杂的“系统工程(Systems Engineering)”。

仅仅优化提示词只能提升“大脑”的性能;而构建全栈智能体技术栈,则是为了构建一个能够感知、思考、记忆并采取行动的完整系统。

未来的胜出者将不是那些拥有最强 LLM 的人,而是那些能够构建出最完善、最稳健的智能体技术栈的人。