AI 现在无需视觉模型即可控制 Windows
AI 不再需要通过“看到”你的桌面来对其进行控制。
大多数 AI Agent 通过截屏工作。它们询问视觉模型屏幕上有什么,猜测按钮的位置,然后移动鼠标。这种方法速度慢且成本高,而且如果 UI 发生微小变化,它就会失效。
一种新的方式正在出现。使用 Windows MCP 的工具正在利用 UI Automation(简称 UIA)。
UIA 是 Windows 内置的一种辅助功能接口。AI 不再是观察像素,而是读取结构化数据。它能看到:
- 按钮
- 输入框
- 菜单
- 窗口标题
- 地址栏
- 控件层级
Agent 读取的是“这是一个名为 Publish 的按钮”,而不是通过图像进行猜测。
我在我的 Windows 机器上测试了 qwen-code/open-computer-use。结果非常明显。Agent 检测到了我正在运行的应用,如 Chrome、Obsidian 和终端。它识别出了 Chrome 的特定部分,例如地址栏和刷新按钮。它找到了执行操作所需的精确坐标。
这对任何经营业务的人来说都很重要。实际工作是杂乱无章的。你需要上传文件、填写网页表单并处理系统对话框。仅靠浏览器自动化是不够的,因为 DOM 选择器会失效。
一个实用的 AI 技术栈应该如下所示:
- CDP 用于浏览器任务。
- UIA 用于 Windows 和原生控件。
- 视觉模型仅作为备选方案。
这让 AI 更接近于真正的本地员工。
这项技术并不完美。UIA 在游戏或具有自定义绘制界面的应用上会失效。此外还存在安全风险。你必须设置安全护栏。
务必为 AI Agent 遵循以下规则:
- 禁止支付。
- 禁止删除文件。
- 未经批准禁止公开发布。
- 禁止访问任务之外的私有数据。
- 为每项操作记录证据。
AI Agent 的未来在于拥有更强有力的“手”,而不仅仅是更强的推理能力。Agent 必须能够读取应用程序状态,执行低风险操作,并在任务变得危险时停止。
AI 还没有接管 Windows。但桌面自动化刚刚变得更加现实。
Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6
Optional learning community: https://t.me/GyaanSetuAi