FullAgenticStack 宣言
每个人都在尝试构建智能体。
人们谈论提示词、工具和大语言模型 (LLMs)。他们专注于智能体调用 API。但这仅仅是个开始。
几年后,问题将会改变。你不会再问如何构建一个智能体,而是会问如何构建由智能体组成的可靠系统。
智能体不是一个系统。智能体只是更大架构中的一部分。
下一阶段的软件需要基础设施。智能体、人类和服务必须在信任、记忆和证明的基础上进行交互。我将其称为 FullAgenticStack。
构建智能体正变得越来越容易。这制造了一个陷阱。人们认为智能体软件仅仅是 LLM 加上工具和记忆。
这远远不够。
一个具备工具调用能力的聊天机器人不是一个系统。一个提示词链也不是一种架构。
真正的难题不在于让一个智能体完成一次任务,而在于让智能体系统在现实世界中安全、重复地运行。
你必须回答这些问题:
- 如何编排智能体?
- 如何对它们进行身份验证?
- 如何审计它们的行为?
- 如何限制它们的权限?
- 发生故障后如何恢复状态?
- 智能体协作时如何防止混乱?
这些不是小问题。它们是基础。
FullAgenticStack 为智能体软件在生产环境中的运行提供了环境。它包括:
- 人类与智能体身份
- 身份验证与授权
- 权限与能力
- 状态与记忆
- 事件历史与可观测性
- 恢复与回滚
- 执行证明
- 零信任交互
工具调用仅仅是一个接口。它无法解决身份问题,也无法解决责任问题。
如果一个智能体购买了产品,是谁授权的?如果一个智能体失败了,你如何恢复?如果一个智能体造成了损害,你如何证明发生了什么?
这些是工程需求。
下一个互联网将由代表个人和公司行事的智能体组成。智能体将进行谈判、调度、购买和销售。
为了实现这一点,智能体不能是隐形的脚本。它们必须是可识别、可观测且可证明的。
你需要的不是提示词栈 (prompt stack),而是 FullAgenticStack。
不要只看表面。目标不在于智能体是否能调用工具,而在于智能体是否能在可信系统中存在。
智能体不是终点。它们是一个新架构的起点。
全栈智能体技术栈宣言:智能体不仅仅是 LLM
如果你认为智能体(Agent)仅仅是发送给 GPT-4 的一个提示词(Prompt),那么你对智能体的理解还停留在表面。
随着 AI 领域从“聊天机器人”向“自主智能体”的演进,我们正在见证一种范式的转变。仅仅拥有一个强大的大语言模型(LLM)是不够的。要构建一个真正能够解决复杂任务、具备自主性和可靠性的智能体,你需要构建一个完整的智能体技术栈(Agentic Stack)。
本宣言旨在定义这个技术栈的各个层级,并阐明为什么智能体不仅仅是 LLM。
智能体不仅仅是 LLM
LLM 是智能体的核心引擎,但它不是智能体本身。
如果把智能体比作一个人,LLM 就像是大脑中的推理能力。虽然推理能力至关重要,但一个人如果没有记忆、没有感官、没有手脚,也无法在现实世界中采取行动或完成任务。
一个真正的智能体需要具备以下五个关键层级:
1. 大脑 (The Brain: The LLM)
这是技术栈的最底层,也是最核心的部分。LLM 负责:
- 推理 (Reasoning): 理解指令并逻辑化地拆解任务。
- 决策 (Decision Making): 在给定的选项中选择下一步行动。
- 语言理解与生成 (Language Understanding & Generation): 作为与其他系统和人类沟通的接口。
然而,LLM 本身是静态的,它受限于训练数据和上下文窗口。为了克服这些限制,我们需要构建其他层级。
2. 规划 (Planning)
规划层负责将复杂的、模糊的目标分解为可执行的步骤。这包括:
- 任务分解 (Task Decomposition): 将大目标拆解为子任务(例如使用 Chain-of-Thought 或 Tree-of-Thoughts 技术)。
- 自我反思 (Self-Reflection): 智能体需要能够评估自己的计划,识别错误并进行修正(例如使用 ReAct 模式)。
- 动态调整 (Dynamic Adjustment): 根据环境反馈实时调整后续步骤。
3. 记忆 (Memory)
没有记忆,智能体就无法维持一致性或从经验中学习。记忆分为两个维度:
- 短期记忆 (Short-term Memory): 利用 LLM 的上下文窗口(Context Window)来存储当前对话或任务的即时信息。
- 长期记忆 (Long-term Memory): 利用向量数据库(Vector Databases)和 RAG(检索增强生成)技术,让智能体能够检索并利用过去存储的海量知识和历史经验。
4. 工具与行动 (Tools & Action)
这是智能体与外部世界产生交互的手段。通过调用 API、执行代码或操作软件,智能体可以超越单纯的文本生成:
- 工具使用 (Tool Use/Function Calling): 调用搜索引擎、计算器、数据库查询或第三方 API。
- 代码执行 (Code Execution): 编写并运行 Python 脚本来处理数据或解决数学问题。
- 环境交互 (Environment Interaction): 在操作系统、浏览器或特定软件环境中执行操作。
5. 环境 (Environment)
环境是智能体运行的舞台。它定义了智能体可以观察到的信息以及它可以施加影响的范围。环境可以是:
- 数字环境: 互联网、文件系统、数据库、软件应用。
- 物理环境: 通过机器人硬件与现实世界交互。
智能体通过感知(Perception)观察环境,通过行动(Action)改变环境,并根据环境的变化形成反馈循环(Feedback Loop)。
总结:从提示词工程到系统工程
构建智能体的过程正在从简单的“提示词工程(Prompt Engineering)”转向复杂的“系统工程(Systems Engineering)”。
仅仅优化提示词只能提升“大脑”的性能;而构建全栈智能体技术栈,则是为了构建一个能够感知、思考、记忆并采取行动的完整系统。
未来的胜出者将不是那些拥有最强 LLM 的人,而是那些能够构建出最完善、最稳健的智能体技术栈的人。