𝗔𝗜 𝗞𝗶𝗻𝗶 𝗗𝗮𝗽𝗮𝘁 𝗠𝗲𝗻𝗴𝗼𝗻𝘁𝗿𝗼𝗹 𝗪𝗶𝗻𝗱𝗼𝘄𝘀 𝗧𝗮𝗻𝗽𝗮 𝗠𝗼𝗱𝗲𝗹 𝗩𝗶𝘀𝗶
AI tidak lagi perlu melihat desktop Anda untuk mengontrolnya.
Sebagian besar agen AI bekerja dengan mengambil tangkapan layar (screenshot). Mereka bertanya kepada model visi tentang apa yang ada di layar. Mereka menebak di mana letak sebuah tombol. Kemudian mereka menggerakkan mouse. Metode ini lambat dan mahal. Metode ini akan gagal jika UI berubah sedikit saja.
Cara baru mulai bermunculan. Alat yang menggunakan Windows MCP menggunakan UI Automation, atau UIA.
UIA adalah antarmuka aksesibilitas yang terintegrasi di Windows. Alih-alih melihat piksel, AI membaca data terstruktur. Ia melihat:
- Tombol
- Bidang input
- Menu
- Judul jendela
- Bilah alamat
- Hierarki kontrol
Agen tersebut membaca "ini adalah tombol bernama Publish" alih-alih menebak dari sebuah gambar.
Saya menguji qwen-code/open-computer-use pada mesin Windows saya. Hasilnya sangat jelas. Agen tersebut mendeteksi aplikasi yang sedang berjalan seperti Chrome, Obsidian, dan terminal. Ia mengidentifikasi bagian tertentu dari Chrome seperti bilah alamat dan tombol refresh. Ia menemukan koordinat yang tepat untuk melakukan tindakan.
Hal ini penting bagi siapa pun yang menjalankan bisnis. Pekerjaan nyata itu berantakan. Anda perlu mengunggah file, mengisi formulir web, dan menangani dialog sistem. Otomasi browser saja tidak cukup karena selector DOM bisa rusak.
Stack AI yang praktis seharusnya terlihat seperti ini:
- CDP untuk tugas browser.
- UIA untuk kontrol Windows dan native.
- Model visi hanya sebagai cadangan (fallback).
Ini membawa AI lebih dekat ke peran karyawan lokal yang nyata.
Teknologi ini tidak sempurna. UIA gagal pada game atau aplikasi dengan antarmuka yang digambar secara kustom (custom-drawn). Ada juga risiko keamanan. Anda harus menetapkan batasan (guardrails).
Selalu ikuti aturan ini untuk agen AI:
- Tidak ada pembayaran.
- Tidak ada penghapusan file.
- Tidak ada postingan publik tanpa persetujuan Anda.
- Tidak ada akses ke data pribadi di luar tugas.
- Catat bukti untuk setiap tindakan.
Masa depan agen AI adalah tentang "tangan" yang lebih baik, bukan sekadar penalaran yang lebih baik. Seorang agen harus dapat membaca status aplikasi, melakukan tindakan berisiko rendah, dan berhenti jika sebuah tugas menjadi berbahaya.
AI belum mengambil alih Windows. Namun, otomasi desktop baru saja menjadi jauh lebih realistis.
Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6
Optional learning community: https://t.me/GyaanSetuAi