Google 将计算机控制功能集成至 Gemini 3.5 Flash
Google 通过将“计算机使用”(Computer Use)能力直接集成到 Gemini 3.5 Flash 模型中,在智能体 AI(agentic AI)领域迈出了重要一步。此次更新使模型能够实时感知、理解并与计算机屏幕、网络浏览器和移动设备进行交互,从而从基于文本的聊天转向主动的数字化执行。
从聊天机器人到自主智能体
此前,操作计算机界面的能力仅限于独立的 Gemini 2.5 模型,这为无缝集成带来了障碍。通过将此功能直接内置于 Gemini 3.5 Flash 中,Google 正助力开发者构建高效的多模态智能体。结合函数调用(function calling)、Google Search 和 Maps 等现有能力,这些智能体可以在桌面、移动端和浏览器环境中处理复杂的业务流程。这使得该模型成为大规模自动化任务(如自动化软件测试、复杂的办公管理和跨平台数据录入)的理想引擎。
性能基准测试:Gemini 与同类产品的对比
此次集成的影响在 OSWorld 基准测试中表现得最为明显,该测试用于衡量 AI 操作计算机系统的能力。Gemini 3.5 Flash 取得了 78.4 的惊人评分,展示了优于许多行业同行的推理和执行能力。
作为参考,Gemini 3.5 Flash 的表现优于 Gemini 3 Flash (65.1) 和 GPT-5.4 mini (72.1)。虽然它略逊于行业领导者 Anthropic Opus 4.8 (83.4) 以及仅有微弱差距的 GPT-5.5 (78.7),但它依然极具竞争力,其性能与 Sonnet 4.6 (78.4) 持平,并超过了 Gemini 3.1 Pro (76.2)。这种竞争优势凸显了 Gemini 3.5 Flash 是开发者在追求速度与复杂计算机交互平衡时的顶级选择。
自主控制中的安全与保障
让大语言模型(LLM)控制用户的界面会带来显著的安全风险,尤其是提示词注入攻击(prompt injection attacks)。为了缓解这些威胁,Google 实施了严格的对抗性训练,并提供了两种不同的企业级防护措施。
第一种防护措施要求在模型执行敏感或不可逆操作(如删除文件或进行财务交易)之前,必须获得用户的明确确认。第二种防护措施是在系统检测到间接提示词注入尝试时,自动停止任何任务。除了这些内置工具外,Google 还强烈建议开发者采用“深度防御”(defense-in-depth)策略,包括对智能体环境进行沙箱化处理、保持人工监督以及实施严格的访问控制。
可用性与实现方式
想要利用这些能力的开发者可以通过 Gemini API 和 Gemini Enterprise Agent Platform 立即进行访问。为了加速构建过程,Google 提供了 GitHub 参考实现和 Browserbase 演示,为将自主计算机控制集成到现有软件生态系统中提供了清晰的路线图。
核心要点
- 直接集成: 计算机控制功能现已原生嵌入 Gemini 3.5 Flash,实现了与屏幕和浏览器的无缝多模态交互。
- 高基准评分: 凭借 78.4 的 OSWorld 评分,Gemini 3.5 Flash 是处理自主计算机任务的顶级模型,表现优于 GPT-5.4 mini。
- 企业级安全: Google 通过对抗性训练以及针对敏感操作的强制用户确认等可选防护措施,应对自主智能体带来的风险。
