𝗔𝗜 Kini Boleh Mengawal Windows Tanpa Model Visi

AI tidak lagi perlu melihat desktop anda untuk mengawalnya.

Kebanyakan ejen AI berfungsi dengan mengambil tangkapan skrin. Mereka bertanya kepada model visi tentang apa yang ada di skrin. Mereka meneka kedudukan butang. Kemudian mereka menggerakkan tetikus. Kaedah ini perlahan dan mahal. Ia akan terganggu jika UI berubah walaupun sedikit.

Satu cara baharu sedang muncul. Alatan yang menggunakan Windows MCP menggunakan UI Automation, atau UIA.

UIA ialah antara muka kebolehcapaian yang dibina dalam Windows. Daripada melihat piksel, AI membaca data berstruktur. Ia melihat:

Ejen tersebut membaca "ini adalah butang bernama Publish" dan bukannya meneka daripada imej.

Saya telah menguji qwen-code/open-computer-use pada mesin Windows saya. Keputusannya sangat jelas. Ejen tersebut mengesan aplikasi yang sedang berjalan seperti Chrome, Obsidian, dan terminal. Ia mengenal pasti bahagian khusus Chrome seperti bar alamat dan butang segar semula. Ia menemui koordinat yang tepat untuk tindakan.

Ini penting bagi sesiapa yang menjalankan perniagaan. Kerja sebenar adalah kompleks. Anda perlu memuat naik fail, mengisi borang web, dan mengendalikan dialog sistem. Automasi pelayar sahaja tidak mencukupi kerana pemilih DOM boleh terganggu.

Stak AI yang praktikal haruslah kelihatan seperti ini:

Ini membawa AI lebih dekat kepada pekerja tempatan yang sebenar.

Teknologi ini tidak sempurna. UIA gagal pada permainan atau aplikasi dengan antara muka lukisan tersuai. Terdapat juga risiko keselamatan. Anda mesti menetapkan pagar keselamatan.

Sentiasa patuhi peraturan ini untuk ejen AI:

Masa depan ejen AI adalah tentang "tangan" yang lebih baik, bukan sekadar penaakulan yang lebih baik. Seorang ejen mesti membaca keadaan aplikasi, melakukan tindakan berisiko rendah, dan berhenti jika sesuatu tugasan menjadi berbahaya.

AI belum lagi mengambil alih Windows. Tetapi automasi desktop kini menjadi jauh lebih realistik.

Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6

Optional learning community: https://t.me/GyaanSetuAi