Google 将 Gemini 转向 Interactions API,助力开启智能体新时代

Google DeepMind 已正式将 Interactions API 指定为所有 Gemini 模型和智能体(agents)的默认接口,这标志着开发者利用 Google AI 进行构建的方式发生了根本性转变。通过取代传统的 generateContent 接口,Google 正在从简单的“文本输入/文本输出”交互转向一个专门为自主代理(autonomous agency)设计的复杂、多步骤框架。

从简单聊天迈向自主智能体

在生成式 AI 时代的很大一部分时间里,开发者一直依赖 generateContent 方法,该方法针对无状态、单轮响应进行了优化。向 Interactions API 的过渡标志着 Google 对“代理式 AI”(Agentic AI)的承诺——即不仅能交谈,而且能采取行动的系统。

据 Google 开发者关系负责人 Logan Kilpatrick 称,该 API “为智能体的新时代奠定了基础”。这一转变使得此前难以实现的功能成为可能,例如配备了自有 Linux 沙箱的托管智能体(Managed Agents)。这使得模型能够在安全、隔离的环境中执行代码,使其能够执行复杂的计算任务,而不仅仅是预测下一个 token。

高级功能:工具链与后台执行

Interactions API 引入了一系列高级功能,将 Gemini 从聊天机器人转变为功能性助手。关键的技术增强包括:

  • 工具链(Tool Chaining): 与 Google Search 和 Google Maps 的无缝集成,允许智能体将行动建立在真实世界的数据基础上。
  • 长时运行任务(Long-running Tasks): 该 API 支持后台执行,允许智能体处理复杂的流程,而无需客户端保持持续的活跃连接。
  • 多模态生成(Multimodal Generation): 开发者现在可以通过智能体工作流直接编排图像、音乐和语音的生成。
  • 状态管理(State Management): 该 API 处理多步推理的复杂性,允许智能体在不同的工具使用和外部调用中保持上下文。

简化的 Schema 与优化的执行模式

Google 还简化了 API 的技术架构,使其对开发者更加直观。传统的基于角色的结构(使用“user”和“model”等标签)已被一套类型化的“步骤”(steps)系统所取代。在这种新的 schema 中,每一个离散的操作——从用户提示词到函数调用,再到随后的工具响应——都被视为序列中一个定义的步骤。

为了满足不同应用在经济性和性能方面的需求,Google 推出了两种不同的执行模式:

  • Flex Mode: 针对成本效益进行了优化,为运行大规模或非紧急任务的开发者降低了 50% 的费用。
  • Priority Mode: 针对低延迟进行了优化,确保对速度要求极高的应用能够获得尽可能快的推理。

为什么这对 AI 生态系统至关重要

此举标志着行业正在跨越“聊天机器人”阶段,进入“智能体”阶段。通过将针对工具使用、沙箱执行和长时运行流程构建的 API 标准化,Google 正在为能够浏览网页、管理文件和执行代码的自主软件提供必要的基础设施。对于开发者而言,这意味着可以减少管理状态的时间,从而将更多精力投入到构建复杂、可靠的 AI 工作流中。

核心要点

  • API 转型: Interactions API 取代 generateContent 成为 Gemini 的默认接口,实现了诸如 Linux 沙箱和工具链等高级智能体功能。
  • 新执行模式: 开发者现在可以在 Flex mode(节省 50% 成本)和 Priority mode(针对速度优化)之间进行选择。
  • 结构性转变: API 从“user/model”角色结构转向“类型化步骤”(typed steps)schema,更好地反映了自主智能体的多步特性。