AI Giờ Đây Có Thể Điều Khiển Windows Mà Không Cần Mô Hình Thị Giác

AI không còn cần phải nhìn thấy màn hình máy tính của bạn để điều khiển nó nữa.

Hầu hết các tác nhân AI (AI agents) hoạt động bằng cách chụp ảnh màn hình. Chúng hỏi một mô hình thị giác xem có gì trên màn hình, đoán vị trí của một nút bấm, rồi di chuyển chuột. Phương pháp này vừa chậm vừa tốn kém. Nó sẽ bị lỗi nếu giao diện người dùng (UI) thay đổi dù chỉ một chút.

Một phương thức mới đang dần xuất hiện. Các công cụ sử dụng Windows MCP sẽ sử dụng UI Automation, hay còn gọi là UIA.

UIA là một giao diện hỗ trợ tiếp cận (accessibility interface) được tích hợp sẵn trong Windows. Thay vì nhìn vào các điểm ảnh (pixels), AI sẽ đọc dữ liệu có cấu trúc. Nó có thể thấy:

Tác nhân sẽ đọc được "đây là một nút có tên là Publish" thay vì phải đoán từ một hình ảnh.

Tôi đã thử nghiệm qwen-code/open-computer-use trên máy tính Windows của mình. Kết quả thật rõ ràng. Tác nhân đã nhận diện được các ứng dụng đang chạy như Chrome, Obsidian và terminal. Nó xác định được các phần cụ thể của Chrome như thanh địa chỉ và nút làm mới. Nó cũng tìm thấy tọa độ chính xác để thực hiện các thao tác.

Điều này rất quan trọng đối với bất kỳ ai đang điều hành doanh nghiệp. Công việc thực tế thường rất phức tạp. Bạn cần tải tệp lên, điền các biểu mẫu web và xử lý các hộp thoại hệ thống. Chỉ riêng tự động hóa trình duyệt là không đủ vì các bộ chọn DOM (DOM selectors) rất dễ bị lỗi.

Một ngăn xếp AI (AI stack) thực tế nên trông như thế này:

Điều này đưa AI tiến gần hơn tới vai trò của một nhân viên thực thụ tại chỗ.

Công nghệ này không hoàn hảo. UIA sẽ thất bại đối với các trò chơi hoặc các ứng dụng có giao diện tự vẽ (custom-drawn interfaces). Ngoài ra còn có các rủi ro về bảo mật. Bạn phải thiết lập các rào chắn bảo vệ (guardrails).

Luôn tuân thủ các quy tắc sau đối với các tác nhân AI:

Tương lai của các tác nhân AI nằm ở việc có "đôi tay" tốt hơn, chứ không chỉ là khả năng lập luận tốt hơn. Một tác nhân phải đọc được trạng thái ứng dụng, thực hiện các hành động ít rủi ro và dừng lại nếu một tác vụ trở nên nguy hiểm.

AI vẫn chưa chiếm quyền điều khiển Windows. Nhưng tự động hóa máy tính để bàn vừa trở nên thực tế hơn rất nhiều.

Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6

Optional learning community: https://t.me/GyaanSetuAi