Gemini 3.5 Flash 现已支持原生计算机使用能力

Translated for your language. 阅读原文.

AI-assisted draft.

Gemini 3.5 Flash 现在具备原生计算机使用能力

Google 于 2026 年 6 月 24 日更新了 Gemini 3.5 Flash。它现在包含原生计算机使用能力。这意味着模型可以直接与屏幕进行交互。

在此次更新之前，开发者面临着一种选择：要么使用单独的模型进行屏幕控制，要么在不同模型之间构建复杂的流水线。这增加了成本和工程工作量。

现在，计算机使用已成为一项标准工具。你可以在单个步骤中将其与 Search 和 Maps 一起调用。

对你而言有哪些变化：

单次推理过程：一个智能体（agent）就可以浏览网页、使用企业级应用并查看 Maps，而无需切换模型。
更大的上下文：上下文窗口从 128K 扩大到了 100 万 token。这有助于处理长任务。
更强的推理能力：现在的每个动作都包含一个意图（intent）字段。它会解释模型为何进行点击或输入。这为合规性提供了审计追踪。
更低的成本：Gemini 3.5 Flash 的每百万输入 token 成本为 1.50 美元。GPT-5.5 的成本为 5.00 美元。在规模化应用方面，Gemini 的成本要低得多。

工作原理：

安全是一个主要问题。智能体可能会执行不可逆的操作，例如发送电子邮件或进行支付。Google 添加了多个层级来管理这一点：

该模型支持超过 20 种动作类型。这包括针对浏览器、移动端和桌面端的点击、输入、滚动和拖拽。

基准测试与实际应用之间仍存在差距。应用程序经常变化，且身份验证流程非常复杂。建议从只读任务开始。一旦你信任了日志记录，再转向需要人工审批的工作流。

计算机使用能力正从一项高级附加功能转变为一项标准工具。

继续阅读