AI Kini Boleh Mengawal Windows Tanpa Model Visi

📅3 hours ago⏱2 min read

𝗔𝗜 Kini Boleh Mengawal Windows Tanpa Model Visi

AI tidak lagi perlu melihat desktop anda untuk mengawalnya.

Kebanyakan ejen AI berfungsi dengan mengambil tangkapan skrin. Mereka bertanya kepada model visi tentang apa yang ada di skrin. Mereka meneka kedudukan butang. Kemudian mereka menggerakkan tetikus. Kaedah ini perlahan dan mahal. Ia akan terganggu jika UI berubah walaupun sedikit.

Satu cara baharu sedang muncul. Alatan yang menggunakan Windows MCP menggunakan UI Automation, atau UIA.

UIA ialah antara muka kebolehcapaian yang dibina dalam Windows. Daripada melihat piksel, AI membaca data berstruktur. Ia melihat:

Butang
Medan input
Menu
Tajuk tetingkap
Bar alamat
Hierarki kawalan

Ejen tersebut membaca "ini adalah butang bernama Publish" dan bukannya meneka daripada imej.

Saya telah menguji qwen-code/open-computer-use pada mesin Windows saya. Keputusannya sangat jelas. Ejen tersebut mengesan aplikasi yang sedang berjalan seperti Chrome, Obsidian, dan terminal. Ia mengenal pasti bahagian khusus Chrome seperti bar alamat dan butang segar semula. Ia menemui koordinat yang tepat untuk tindakan.

Ini penting bagi sesiapa yang menjalankan perniagaan. Kerja sebenar adalah kompleks. Anda perlu memuat naik fail, mengisi borang web, dan mengendalikan dialog sistem. Automasi pelayar sahaja tidak mencukupi kerana pemilih DOM boleh terganggu.

Stak AI yang praktikal haruslah kelihatan seperti ini:

CDP untuk tugasan pelayar.
UIA untuk Windows dan kawalan asli.
Model visi hanya sebagai sandaran.

Ini membawa AI lebih dekat kepada pekerja tempatan yang sebenar.

Teknologi ini tidak sempurna. UIA gagal pada permainan atau aplikasi dengan antara muka lukisan tersuai. Terdapat juga risiko keselamatan. Anda mesti menetapkan pagar keselamatan.

Sentiasa patuhi peraturan ini untuk ejen AI:

Tiada pembayaran.
Tiada pemadaman fail.
Tiada hantaran awam tanpa kelulusan anda.
Tiada akses kepada data peribadi di luar tugasan.
Log bukti bagi setiap tindakan.

Masa depan ejen AI adalah tentang "tangan" yang lebih baik, bukan sekadar penaakulan yang lebih baik. Seorang ejen mesti membaca keadaan aplikasi, melakukan tindakan berisiko rendah, dan berhenti jika sesuatu tugasan menjadi berbahaya.

AI belum lagi mengambil alih Windows. Tetapi automasi desktop kini menjadi jauh lebih realistik.

Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6

Optional learning community: https://t.me/GyaanSetuAi

AI Kini Boleh Mengawal Windows Tanpa Model Visi

Continue reading

𝗪𝗼𝗿𝗹𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗔𝗻𝗱 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗧𝗵𝗲 𝗥𝗶𝗴𝗵𝗍 𝗪𝗮𝘆 𝗧𝗼 𝗕𝗎𝗶𝗹𝗱 𝗔𝗡 𝗔𝗜 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝗍𝗎𝗿𝗲

𝗧𝗵𝗲 𝗣𝗼𝘄𝗲𝗿 𝗼𝗳 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲

𝗠𝗖𝗣 𝗦𝗲𝗿𝘃𝗲𝗿𝘀 𝗠𝗮𝗸𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗨𝘀𝗲𝗳𝘂𝗹 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

𝗧𝗵𝗲 𝗗𝗮𝘆 𝗔𝗜 𝗔𝗿𝗴𝘂𝗲𝗱 𝗪𝗶𝘁𝗵 𝗠𝗗𝗡 𝗔𝗻𝗱 𝗟𝗼𝘀𝘁