விஷன் மாடல்கள் இல்லாமலேயே இப்போது AI can control Windows
உங்கள் டெஸ்க்டாப்பை (desktop) கட்டுப்படுத்த AI இனி அதைப் பார்க்க வேண்டிய அவசியமில்லை.
பெரும்பாலான AI ஏஜெண்டுகள் (agents) ஸ்கிரீன்ஷாட்களை (screenshots) எடுப்பதன் மூலம் செயல்படுகின்றன. திரையில் என்ன இருக்கிறது என்று அவை ஒரு விஷன் மாடலிடம் கேட்கின்றன. ஒரு பட்டன் எங்குள்ளது என்பதை அவை யூகிக்கின்றன. பிறகு மவுஸை நகர்த்துகின்றன. இந்த முறை மெதுவானது மற்றும் செலவு அதிகம் கொண்டது. UI சிறிதளவு மாறினாலும் இது தோல்வியடையும்.
ஒரு புதிய வழி உருவாகி வருகிறது. Windows MCP பயன்படுத்தும் கருவிகள் UI Automation அல்லது UIA-வைப் பயன்படுத்துகின்றன.
UIA என்பது Windows-இல் உள்ளமைக்கப்பட்ட ஒரு அணுகல்தன்மை இடைமுகம் (accessibility interface) ஆகும். பிக்சல்களைப் (pixels) பார்ப்பதற்குப் பதிலாக, AI கட்டமைக்கப்பட்ட தரவுகளை (structured data) வாசிக்கிறது. அது இதைக் காணும்:
- பட்டன்கள் (Buttons)
- உள்ளீட்டு புலங்கள் (Input fields)
- மெனுக்கள் (Menus)
- விண்டோ தலைப்புகள் (Window titles)
- முகவரிப் பட்டைகள் (Address bars)
- கட்டுப்பாட்டு படிநிலைகள் (Control hierarchies)
அந்த ஏஜெண்ட் ஒரு படத்திலிருந்து யூகிக்காமல், "இது Publish என்று பெயரிடப்பட்ட ஒரு பட்டன்" என்று வாசிக்கிறது.
எனது Windows மெஷினில் qwen-code/open-computer-use-ஐ நான் சோதித்துப் பார்த்தேன். அதன் முடிவுகள் தெளிவாக இருந்தன. Chrome, Obsidian மற்றும் terminal போன்ற நான் இயக்கி வந்த செயலிகளை அந்த ஏஜெண்ட் கண்டறிந்தது. Chrome-இன் முகவரிப் பட்டை (address bar) மற்றும் refresh பட்டன் போன்ற குறிப்பிட்ட பகுதிகளை அது அடையாளம் கண்டது. செயல்களுக்கான துல்லியமான ஆயத்தொலைவுகளை (coordinates) அது கண்டறிந்தது.
தொழில் நடத்துபவர்களுக்கு இது முக்கியமானது. நிஜமான வேலைகள் சிக்கலானவை. நீங்கள் கோப்புகளைப் பதிவேற்ற வேண்டும், இணையப் படிவங்களை (web forms) நிரப்ப வேண்டும் மற்றும் சிஸ்டம் டயலாக்குகளை (system dialogs) கையாள வேண்டும். DOM selectors உடைந்து போவதால், பிரவுசர் ஆட்டோமேஷன் (browser automation) மட்டும் போதுமானதாக இருக்காது.
ஒரு நடைமுறை AI stack இவ்வாறு இருக்க வேண்டும்:
- பிரவுசர் பணிகளுக்கு CDP.
- Windows மற்றும் நேட்டிவ் கட்டுப்பாடுகளுக்கு (native controls) UIA.
- விஷன் மாடல்களை ஒரு மாற்று வழியாக (fallback) மட்டும் பயன்படுத்துதல்.
இது AI-யை ஒரு உண்மையான உள்ளூர் ஊழியருக்கு (local employee) நெருக்கமாகக் கொண்டு செல்கிறது.
இந்தத் தொழில்நுட்பம் முழுமையானது அல்ல. கேம்கள் அல்லது தனிப்பயன் இடைமுகங்களைக் (custom-drawn interfaces) கொண்ட செயலிகளில் UIA தோல்வியடையும். இதில் பாதுகாப்பு அபாயங்களும் உள்ளன. நீங்கள் பாதுகாப்புத் தடுப்புகளை (guardrails) அமைக்க வேண்டும்.
AI ஏஜெண்டுகளுக்கு எப்போதும் இந்த விதிகளைப் பின்பற்றவும்:
- பணம் செலுத்துதல் கூடாது.
- கோப்புகளை நீக்கக்கூடாது.
- உங்கள் அனுமதியின்றி பொதுவில் பதிவிடக்கூடாது.
- பணியைத் தாண்டி தனிப்பட்ட தரவுகளை அணுகக்கூடாது.
- ஒவ்வொரு செயலுக்கும் ஆதாரங்களை பதிவு (log) செய்யவும்.
AI ஏஜெண்டுகளின் எதிர்காலம் என்பது சிறந்த பகுத்தறிவை (reasoning) மட்டும் சார்ந்தது அல்ல, சிறந்த செயல்பாடுகளையும் (hands) சார்ந்தது. ஒரு ஏஜெண்ட் பயன்பாட்டு நிலையை (application state) வாசிக்க வேண்டும், குறைந்த ஆபத்துள்ள செயல்களைச் செய்ய வேண்டும் மற்றும் ஒரு பணி ஆபத்தானதாக மாறினால் நிறுத்த வேண்டும்.
AI இன்னும் Windows-ஐ ஆக்கிரமிக்கவில்லை. ஆனால் டெஸ்க்டாப் ஆட்டோமேஷன் (desktop automation) இப்போது மிகவும் யதார்த்தமானதாகிவிட்டது.
Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6
Optional learning community: https://t.me/GyaanSetuAi