AI 现在无需视觉模型即可控制 Windows

AI 不再需要通过“看到”你的桌面来对其进行控制。

大多数 AI Agent 通过截屏工作。它们询问视觉模型屏幕上有什么,猜测按钮的位置,然后移动鼠标。这种方法速度慢且成本高,而且如果 UI 发生微小变化,它就会失效。

一种新的方式正在出现。使用 Windows MCP 的工具正在利用 UI Automation(简称 UIA)。

UIA 是 Windows 内置的一种辅助功能接口。AI 不再是观察像素,而是读取结构化数据。它能看到:

Agent 读取的是“这是一个名为 Publish 的按钮”,而不是通过图像进行猜测。

我在我的 Windows 机器上测试了 qwen-code/open-computer-use。结果非常明显。Agent 检测到了我正在运行的应用,如 Chrome、Obsidian 和终端。它识别出了 Chrome 的特定部分,例如地址栏和刷新按钮。它找到了执行操作所需的精确坐标。

这对任何经营业务的人来说都很重要。实际工作是杂乱无章的。你需要上传文件、填写网页表单并处理系统对话框。仅靠浏览器自动化是不够的,因为 DOM 选择器会失效。

一个实用的 AI 技术栈应该如下所示:

这让 AI 更接近于真正的本地员工。

这项技术并不完美。UIA 在游戏或具有自定义绘制界面的应用上会失效。此外还存在安全风险。你必须设置安全护栏。

务必为 AI Agent 遵循以下规则:

AI Agent 的未来在于拥有更强有力的“手”,而不仅仅是更强的推理能力。Agent 必须能够读取应用程序状态,执行低风险操作,并在任务变得危险时停止。

AI 还没有接管 Windows。但桌面自动化刚刚变得更加现实。

Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6

Optional learning community: https://t.me/GyaanSetuAi