விஷன் மாடல்கள் இல்லாமலேயே இப்போது AI can control Windows

உங்கள் டெஸ்க்டாப்பை (desktop) கட்டுப்படுத்த AI இனி அதைப் பார்க்க வேண்டிய அவசியமில்லை.

பெரும்பாலான AI ஏஜெண்டுகள் (agents) ஸ்கிரீன்ஷாட்களை (screenshots) எடுப்பதன் மூலம் செயல்படுகின்றன. திரையில் என்ன இருக்கிறது என்று அவை ஒரு விஷன் மாடலிடம் கேட்கின்றன. ஒரு பட்டன் எங்குள்ளது என்பதை அவை யூகிக்கின்றன. பிறகு மவுஸை நகர்த்துகின்றன. இந்த முறை மெதுவானது மற்றும் செலவு அதிகம் கொண்டது. UI சிறிதளவு மாறினாலும் இது தோல்வியடையும்.

ஒரு புதிய வழி உருவாகி வருகிறது. Windows MCP பயன்படுத்தும் கருவிகள் UI Automation அல்லது UIA-வைப் பயன்படுத்துகின்றன.

UIA என்பது Windows-இல் உள்ளமைக்கப்பட்ட ஒரு அணுகல்தன்மை இடைமுகம் (accessibility interface) ஆகும். பிக்சல்களைப் (pixels) பார்ப்பதற்குப் பதிலாக, AI கட்டமைக்கப்பட்ட தரவுகளை (structured data) வாசிக்கிறது. அது இதைக் காணும்:

அந்த ஏஜெண்ட் ஒரு படத்திலிருந்து யூகிக்காமல், "இது Publish என்று பெயரிடப்பட்ட ஒரு பட்டன்" என்று வாசிக்கிறது.

எனது Windows மெஷினில் qwen-code/open-computer-use-ஐ நான் சோதித்துப் பார்த்தேன். அதன் முடிவுகள் தெளிவாக இருந்தன. Chrome, Obsidian மற்றும் terminal போன்ற நான் இயக்கி வந்த செயலிகளை அந்த ஏஜெண்ட் கண்டறிந்தது. Chrome-இன் முகவரிப் பட்டை (address bar) மற்றும் refresh பட்டன் போன்ற குறிப்பிட்ட பகுதிகளை அது அடையாளம் கண்டது. செயல்களுக்கான துல்லியமான ஆயத்தொலைவுகளை (coordinates) அது கண்டறிந்தது.

தொழில் நடத்துபவர்களுக்கு இது முக்கியமானது. நிஜமான வேலைகள் சிக்கலானவை. நீங்கள் கோப்புகளைப் பதிவேற்ற வேண்டும், இணையப் படிவங்களை (web forms) நிரப்ப வேண்டும் மற்றும் சிஸ்டம் டயலாக்குகளை (system dialogs) கையாள வேண்டும். DOM selectors உடைந்து போவதால், பிரவுசர் ஆட்டோமேஷன் (browser automation) மட்டும் போதுமானதாக இருக்காது.

ஒரு நடைமுறை AI stack இவ்வாறு இருக்க வேண்டும்:

இது AI-யை ஒரு உண்மையான உள்ளூர் ஊழியருக்கு (local employee) நெருக்கமாகக் கொண்டு செல்கிறது.

இந்தத் தொழில்நுட்பம் முழுமையானது அல்ல. கேம்கள் அல்லது தனிப்பயன் இடைமுகங்களைக் (custom-drawn interfaces) கொண்ட செயலிகளில் UIA தோல்வியடையும். இதில் பாதுகாப்பு அபாயங்களும் உள்ளன. நீங்கள் பாதுகாப்புத் தடுப்புகளை (guardrails) அமைக்க வேண்டும்.

AI ஏஜெண்டுகளுக்கு எப்போதும் இந்த விதிகளைப் பின்பற்றவும்:

AI ஏஜெண்டுகளின் எதிர்காலம் என்பது சிறந்த பகுத்தறிவை (reasoning) மட்டும் சார்ந்தது அல்ல, சிறந்த செயல்பாடுகளையும் (hands) சார்ந்தது. ஒரு ஏஜெண்ட் பயன்பாட்டு நிலையை (application state) வாசிக்க வேண்டும், குறைந்த ஆபத்துள்ள செயல்களைச் செய்ய வேண்டும் மற்றும் ஒரு பணி ஆபத்தானதாக மாறினால் நிறுத்த வேண்டும்.

AI இன்னும் Windows-ஐ ஆக்கிரமிக்கவில்லை. ஆனால் டெஸ்க்டாப் ஆட்டோமேஷன் (desktop automation) இப்போது மிகவும் யதார்த்தமானதாகிவிட்டது.

Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6

Optional learning community: https://t.me/GyaanSetuAi