智能体架构是一个计算分配问题
最近,三个独立的团队在 AI 智能体设计方面得出了相同的结论。
Anthropic 发布了一篇关于顾问策略(advisor strategy)的博文。他们使用廉价模型来运行主循环,只有在廉价模型陷入困境时才调用昂贵模型。BrowseComp 的这种设置在仅使用顶级模型成本 15% 的情况下,达到了 41.2% 的准确率。
Shopify 的 Tobi Lutke 在 X 上分享了类似的设置。他运行本地模型进行研究,并使用前沿模型(frontier model)作为顾问。开发者们在几小时内就构建出了其开源版本。
HazyResearch 发表了一篇关于“压缩器-预测器”(compressor-predictor)框架的论文。通过一个小模型为大模型提炼上下文,以便大模型进行推理。他们的系统在仅消耗 26% 成本的情况下,恢复了 99% 的准确率。
这种趋同并非巧合。它遵循一个特定的设计法则:成本曲线框架(cost-curve frame)。
我在本系列文章中通过三个层面论证了这个框架:
- 第 1 层(检索):为什么在大多数代码任务中,工具循环(tool-loops)优于 RAG。
- 第 2 层(存储):为什么在符号图(symbol graphs)方面,SQLite 优于向量数据库。
- 第 3 层(编排):为什么在模型选择上,顾问策略更胜一筹。
逻辑是一致的。大多数智能体任务由许多低价值操作和少量高价值决策组成。
如果你对每个 token 都使用昂贵模型,那么在阅读上下文或格式化文本等常规工作上就会浪费资金。顾问策略将这些路径分离开来:你使用廉价的执行器(executor)处理大部分工作,仅在关键决策点使用昂贵的顾问。
如果你正在构建智能体,请注意以下三个工程挑战:
- 数据外泄(Data Egress):将上下文发送给远程顾问可能会泄露敏感数据。请使用脱敏层(redaction layer)。
- 升级策略(Escalation Policy):决定何时调用顾问非常困难。调用太早会浪费金钱,调用太晚会浪费时间。
- 交接设计(Handoff Design):顾问应该提供一个简短的计划,而不是完整的解决方案。
这种模式之所以真实存在,是因为它很高效。不要再为那些不需要顶级模型能力的 token 支付前沿模型的费用了。
Optional learning community: https://t.me/GyaanSetuAi