𝗔𝗜 𝗖𝗮𝗻 𝗡𝗼𝘄 𝗖𝗼𝗻𝘁𝗿𝗼𝗹 𝗪𝗶𝗻𝗱𝗼𝘄𝘀 𝗪𝗶𝘁𝗵𝗼𝘂𝘁 𝗩𝗶𝘀𝗶𝗼𝗻 𝗠𝗼𝗱𝗲𝗹𝘀

AI ला आता डेस्कटॉप नियंत्रित करण्यासाठी तो पाहण्याची गरज नाही.

बहुतेक AI एजंट्स स्क्रीनशॉट घेऊन काम करतात. स्क्रीनवर काय आहे हे विचारण्यासाठी ते व्हिजन मॉडेलचा वापर करतात. बटण कुठे आहे याचा ते अंदाज लावतात आणि मग माऊस हलवतात. ही पद्धत संथ आणि खर्चिक आहे. जर UI मध्ये थोडासा जरी बदल झाला, तर ही पद्धत निकामी ठरते.

एक नवीन पद्धत समोर येत आहे. Windows MCP वापरणारी साधने UI Automation, किंवा UIA चा वापर करतात.

UIA हे Windows मध्ये अंगभूत असलेले एक ॲक्सेसिबिलिटी इंटरफेस (accessibility interface) आहे. पिक्सेल्स पाहण्याऐवजी, AI स्ट्रक्चर्ड डेटा वाचते. ते खालील गोष्टी पाहू शकते:

एजंट इमेजवरून अंदाज लावण्याऐवजी "हे 'Publish' नावाचे बटण आहे" असे वाचते.

मी माझ्या Windows मशीनवर qwen-code/open-computer-use तपासून पाहिले. त्याचे निकाल स्पष्ट होते. एजंटने Chrome, Obsidian आणि टर्मिनल सारखे माझे चालू असलेले ॲप्स शोधले. त्याने Chrome मधील ॲड्रेस बार आणि रिफ्रेश बटण यांसारखे विशिष्ट भाग ओळखले. त्याने कृतींसाठी अचूक कोऑर्डिनेट्स (coordinates) शोधले.

व्यवसाय चालवणाऱ्या प्रत्येकासाठी हे महत्त्वाचे आहे. प्रत्यक्ष काम गुंतागुंतीचे असते. तुम्हाला फाइल्स अपलोड कराव्या लागतात, वेब फॉर्म्स भरावे लागतात आणि सिस्टम डायलॉग्स हाताळावे लागतात. केवळ ब्राउझर ऑटोमेशन अपयशी ठरते कारण DOM सिलेक्टर्समध्ये बदल होऊ शकतात.

एक व्यावहारिक AI स्टॅक असा असावा:

यामुळे AI एका खऱ्या स्थानिक कर्मचाऱ्याच्या अधिक जवळ येते.

हे तंत्रज्ञान परिपूर्ण नाही. गेम्स किंवा कस्टम-ड्रॉन इंटरफेस असलेल्या ॲप्सवर UIA काम करत नाही. यामध्ये सुरक्षा धोके देखील आहेत. तुम्हाला गार्डरेल्स (guardrails) सेट करणे आवश्यक आहे.

AI एजंट्ससाठी नेहमी या नियमांचे पालन करा:

AI एजंट्सचे भविष्य केवळ उत्तम तर्कशक्तीवर (reasoning) नाही, तर अधिक सक्षम हातांवर (better hands) अवलंबून आहे. एजंटने ॲप्लिकेशनची स्थिती वाचली पाहिजे, कमी जोखमीच्या कृती केल्या पाहिजेत आणि जर एखादे काम धोकादायक झाले तर थांबले पाहिजे.

AI अजून Windows वर ताबा मिळवलेले नाही. परंतु डेस्कटॉप ऑटोमेशन आता अधिक वास्तववादी झाले आहे.

Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6

Optional learning community: https://t.me/GyaanSetuAi