Gemini Interactions API:智能体中间件的终结?
Google 刚刚改变了你构建 AI 智能体的方式。
Interactions API 现已正式发布。它是与 Gemini 模型和智能体协作的新主要方式。这次更新使得大多数编排框架(如 LangGraph 或 CrewAI)在处理简单任务时变得多余。
此前,你必须将四件事粘合在一起:
- 模型调用
- 工具执行
- 对话状态
- 智能体生命周期
现在,Google 将所有这些功能整合进了一个单一的服务端契约中。
这对你意味着什么:
• 统一执行 你不再需要管理“底层管道”。一次 API 调用即可处理推理、工具和状态。
• 服务端状态
你不需要在 Redis 或向量数据库中管理用于短期记忆的历史记录。Google 通过 session_id 处理会话。这消除了对复杂上下文窗口管理的需求。
• 托管智能体 你可以调用像 "antigravity" 这样的智能体 ID 来触发远程 Linux 沙箱。该智能体可以进行推理、运行代码并浏览网页,而无需你搭建任何基础设施。
• 后台执行
为长时间运行的任务设置 background=True。服务器会异步运行任务。你不再需要构建自己的任务队列或轮询循环。
权衡:可移植性 vs. 便利性
最大的问题在于锁定(lock-in)。因为你的对话状态存储在 Google 的服务器上,你无法轻松地将该状态迁移到 OpenAI 或 Anthropic。你获得了速度并减少了样板代码,但失去了轻松切换供应商的能力。
我给开发者的建议:
- 对于线性的、有状态的智能体路径,请使用 Interactions API。
- 对于复杂的、分支的或循环的工作流,请保留 LangGraph。
- 将你的长期知识保留在自己的向量数据库中,以保持可移植性。
- 密切监控沙箱的计算成本,因为它们是与 Token 分开计费的。
构建大量“胶水代码”的时代正在结束。Google 正在将编排层从你的代码转移到他们的服务器上。
可选学习社区:https://t.me/GyaanSetuAi
