智能体架构是一个计算资源分配问题

📅3 hours ago⏱2 min read

智能体架构是一个计算分配问题

最近，三个独立的团队在 AI 智能体设计方面得出了相同的结论。

Anthropic 发布了一篇关于顾问策略（advisor strategy）的博文。他们使用廉价模型来运行主循环，只有在廉价模型陷入困境时才调用昂贵模型。BrowseComp 的这种设置在仅使用顶级模型成本 15% 的情况下，达到了 41.2% 的准确率。

Shopify 的 Tobi Lutke 在 X 上分享了类似的设置。他运行本地模型进行研究，并使用前沿模型（frontier model）作为顾问。开发者们在几小时内就构建出了其开源版本。

HazyResearch 发表了一篇关于“压缩器-预测器”（compressor-predictor）框架的论文。通过一个小模型为大模型提炼上下文，以便大模型进行推理。他们的系统在仅消耗 26% 成本的情况下，恢复了 99% 的准确率。

这种趋同并非巧合。它遵循一个特定的设计法则：成本曲线框架（cost-curve frame）。

我在本系列文章中通过三个层面论证了这个框架：

逻辑是一致的。大多数智能体任务由许多低价值操作和少量高价值决策组成。

如果你对每个 token 都使用昂贵模型，那么在阅读上下文或格式化文本等常规工作上就会浪费资金。顾问策略将这些路径分离开来：你使用廉价的执行器（executor）处理大部分工作，仅在关键决策点使用昂贵的顾问。

如果你正在构建智能体，请注意以下三个工程挑战：

这种模式之所以真实存在，是因为它很高效。不要再为那些不需要顶级模型能力的 token 支付前沿模型的费用了。

Optional learning community: https://t.me/GyaanSetuAi

Continue reading