AI Giờ Đây Có Thể Điều Khiển Windows Mà Không Cần Mô Hình Thị Giác
AI không còn cần phải nhìn thấy màn hình máy tính của bạn để điều khiển nó nữa.
Hầu hết các tác nhân AI (AI agents) hoạt động bằng cách chụp ảnh màn hình. Chúng hỏi một mô hình thị giác xem có gì trên màn hình, đoán vị trí của một nút bấm, rồi di chuyển chuột. Phương pháp này vừa chậm vừa tốn kém. Nó sẽ bị lỗi nếu giao diện người dùng (UI) thay đổi dù chỉ một chút.
Một phương thức mới đang dần xuất hiện. Các công cụ sử dụng Windows MCP sẽ sử dụng UI Automation, hay còn gọi là UIA.
UIA là một giao diện hỗ trợ tiếp cận (accessibility interface) được tích hợp sẵn trong Windows. Thay vì nhìn vào các điểm ảnh (pixels), AI sẽ đọc dữ liệu có cấu trúc. Nó có thể thấy:
- Các nút bấm
- Các trường nhập liệu
- Các menu
- Tiêu đề cửa sổ
- Thanh địa chỉ
- Hệ thống phân cấp điều khiển
Tác nhân sẽ đọc được "đây là một nút có tên là Publish" thay vì phải đoán từ một hình ảnh.
Tôi đã thử nghiệm qwen-code/open-computer-use trên máy tính Windows của mình. Kết quả thật rõ ràng. Tác nhân đã nhận diện được các ứng dụng đang chạy như Chrome, Obsidian và terminal. Nó xác định được các phần cụ thể của Chrome như thanh địa chỉ và nút làm mới. Nó cũng tìm thấy tọa độ chính xác để thực hiện các thao tác.
Điều này rất quan trọng đối với bất kỳ ai đang điều hành doanh nghiệp. Công việc thực tế thường rất phức tạp. Bạn cần tải tệp lên, điền các biểu mẫu web và xử lý các hộp thoại hệ thống. Chỉ riêng tự động hóa trình duyệt là không đủ vì các bộ chọn DOM (DOM selectors) rất dễ bị lỗi.
Một ngăn xếp AI (AI stack) thực tế nên trông như thế này:
- CDP cho các tác vụ trình duyệt.
- UIA cho Windows và các điều khiển gốc (native controls).
- Các mô hình thị giác chỉ đóng vai trò là phương án dự phòng.
Điều này đưa AI tiến gần hơn tới vai trò của một nhân viên thực thụ tại chỗ.
Công nghệ này không hoàn hảo. UIA sẽ thất bại đối với các trò chơi hoặc các ứng dụng có giao diện tự vẽ (custom-drawn interfaces). Ngoài ra còn có các rủi ro về bảo mật. Bạn phải thiết lập các rào chắn bảo vệ (guardrails).
Luôn tuân thủ các quy tắc sau đối với các tác nhân AI:
- Không thực hiện thanh toán.
- Không xóa tệp.
- Không đăng bài công khai nếu không có sự chấp thuận của bạn.
- Không truy cập dữ liệu riêng tư nằm ngoài phạm vi tác vụ.
- Lưu nhật ký bằng chứng cho mọi hành động.
Tương lai của các tác nhân AI nằm ở việc có "đôi tay" tốt hơn, chứ không chỉ là khả năng lập luận tốt hơn. Một tác nhân phải đọc được trạng thái ứng dụng, thực hiện các hành động ít rủi ro và dừng lại nếu một tác vụ trở nên nguy hiểm.
AI vẫn chưa chiếm quyền điều khiển Windows. Nhưng tự động hóa máy tính để bàn vừa trở nên thực tế hơn rất nhiều.
Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6
Optional learning community: https://t.me/GyaanSetuAi