AI 现在无需视觉模型即可控制 Windows

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

AI 现在无需视觉模型即可控制 Windows

AI 不再需要通过“看到”你的桌面来对其进行控制。

大多数 AI Agent 通过截屏工作。它们询问视觉模型屏幕上有什么，猜测按钮的位置，然后移动鼠标。这种方法速度慢且成本高，而且如果 UI 发生微小变化，它就会失效。

一种新的方式正在出现。使用 Windows MCP 的工具正在利用 UI Automation（简称 UIA）。

UIA 是 Windows 内置的一种辅助功能接口。AI 不再是观察像素，而是读取结构化数据。它能看到：

Agent 读取的是“这是一个名为 Publish 的按钮”，而不是通过图像进行猜测。

我在我的 Windows 机器上测试了 qwen-code/open-computer-use。结果非常明显。Agent 检测到了我正在运行的应用，如 Chrome、Obsidian 和终端。它识别出了 Chrome 的特定部分，例如地址栏和刷新按钮。它找到了执行操作所需的精确坐标。

这对任何经营业务的人来说都很重要。实际工作是杂乱无章的。你需要上传文件、填写网页表单并处理系统对话框。仅靠浏览器自动化是不够的，因为 DOM 选择器会失效。

一个实用的 AI 技术栈应该如下所示：

这让 AI 更接近于真正的本地员工。

这项技术并不完美。UIA 在游戏或具有自定义绘制界面的应用上会失效。此外还存在安全风险。你必须设置安全护栏。

务必为 AI Agent 遵循以下规则：

AI Agent 的未来在于拥有更强有力的“手”，而不仅仅是更强的推理能力。Agent 必须能够读取应用程序状态，执行低风险操作，并在任务变得危险时停止。

AI 还没有接管 Windows。但桌面自动化刚刚变得更加现实。

Optional learning community: https://t.me/GyaanSetuAi

Continue reading