Gemini 3.5 Flash 现在具备原生计算机使用能力

Google 于 2026 年 6 月 24 日更新了 Gemini 3.5 Flash。它现在包含原生计算机使用能力。这意味着模型可以直接与屏幕进行交互。

在此次更新之前,开发者面临着一种选择:要么使用单独的模型进行屏幕控制,要么在不同模型之间构建复杂的流水线。这增加了成本和工程工作量。

现在,计算机使用已成为一项标准工具。你可以在单个步骤中将其与 Search 和 Maps 一起调用。

对你而言有哪些变化:

  • 单次推理过程:一个智能体(agent)就可以浏览网页、使用企业级应用并查看 Maps,而无需切换模型。
  • 更大的上下文:上下文窗口从 128K 扩大到了 100 万 token。这有助于处理长任务。
  • 更强的推理能力:现在的每个动作都包含一个意图(intent)字段。它会解释模型为何进行点击或输入。这为合规性提供了审计追踪。
  • 更低的成本:Gemini 3.5 Flash 的每百万输入 token 成本为 1.50 美元。GPT-5.5 的成本为 5.00 美元。在规模化应用方面,Gemini 的成本要低得多。

工作原理:

  • 你的应用截取一张屏幕截图。
  • API 接收图像和你的目标。
  • 模型选择一个 UI 元素并返回一个命令,例如点击或滚动。
  • 你的应用执行该命令并重复此过程。

安全是一个主要问题。智能体可能会执行不可逆的操作,例如发送电子邮件或进行支付。Google 添加了多个层级来管理这一点:

  • 用于防止提示词注入(prompt injection)的对抗训练。
  • 针对敏感操作的人工确认。
  • 七个安全类别,用于拦截特定的任务(如金融操作)。

该模型支持超过 20 种动作类型。这包括针对浏览器、移动端和桌面端的点击、输入、滚动和拖拽。

基准测试与实际应用之间仍存在差距。应用程序经常变化,且身份验证流程非常复杂。建议从只读任务开始。一旦你信任了日志记录,再转向需要人工审批的工作流。

计算机使用能力正从一项高级附加功能转变为一项标准工具。

来源:https://dev.to/prabhakar_chaudhary_7afe4/gemini-35-flash-now-has-native-computer-use-heres-what-that-actually-changes-ol0

可选学习社区:https://t.me/GyaanSetuAi