AI હવે વિઝન મોડલ્સ વગર Windows ને નિયંત્રિત કરી શકે છે
AI ને હવે તેને નિયંત્રિત કરવા માટે તમારા ડેસ્કટોપને જોવાની જરૂર નથી.
મોટાભાગના AI એજન્ટ્સ સ્ક્રીનશોટ લઈને કામ કરે છે. તેઓ વિઝન મોડલને પૂછે છે કે સ્ક્રીન પર શું છે. તેઓ અંદાજ લગાવે છે કે બટન ક્યાં છે. પછી તેઓ માઉસને હલાવે છે. આ પદ્ધતિ ધીમી અને ખર્ચાળ છે. જો UI માં થોડો પણ ફેરફાર થાય તો તે નિષ્ફળ જાય છે.
એક નવો રસ્તો સામે આવી રહ્યો છે. Windows MCP નો ઉપયોગ કરતા ટૂલ્સ UI Automation, અથવા UIA નો ઉપયોગ કરે છે.
UIA એ Windows માં બિલ્ટ-ઇન એક્સેસિબિલિટી ઇન્ટરફેસ છે. પિક્સેલ્સ જોવાને બદલે, AI સ્ટ્રક્ચર્ડ ડેટા વાંચે છે. તે જુએ છે:
- બટનો (Buttons)
- ઇનપુટ ફીલ્ડ્સ (Input fields)
- મેનૂઝ (Menus)
- વિન્ડો ટાઇટલ્સ (Window titles)
- એડ્રેસ બાર (Address bars)
- કંટ્રોલ હાયરાર્કીઝ (Control hierarchies)
એજન્ટ ઈમેજ પરથી અંદાજ લગાવવાને બદલે "આ Publish નામનું બટન છે" તેવું વાંચે છે.
મેં મારા Windows મશીન પર qwen-code/open-computer-use ટેસ્ટ કર્યું. પરિણામો સ્પષ્ટ હતા. એજન્ટે Chrome, Obsidian અને terminal જેવી મારી ચાલતી એપ્સ શોધી કાઢી. તેણે Chrome ના એડ્રેસ બાર અને રિફ્રેશ બટન જેવા ચોક્કસ ભાગોને ઓળખી કાઢ્યા. તેણે એક્શન માટે ચોક્કસ કોઓર્ડિનેટ્સ (coordinates) શોધી કાઢ્યા.
આ વ્યવસાય ચલાવતા કોઈપણ વ્યક્તિ માટે મહત્વનું છે. વાસ્તવિક કામ જટિલ હોય છે. તમારે ફાઇલો અપલોડ કરવી પડે છે, વેબ ફોર્મ ભરવા પડે છે અને સિસ્ટમ ડાયલોગ્સ હેન્ડલ કરવા પડે છે. માત્ર બ્રાઉઝર ઓટોમેશન નિષ્ફળ જાય છે કારણ કે DOM સિલેક્ટર્સ તૂટી જાય છે.
એક વ્યવહારુ AI સ્ટેક આવો હોવો જોઈએ:
- બ્રાઉઝર કાર્યો માટે CDP.
- Windows અને નેટિવ કંટ્રોલ્સ માટે UIA.
- વિઝન મોડલ્સ માત્ર ફોલબેક (fallback) તરીકે.
આ AI ને વાસ્તવિક લોકલ કર્મચારીની વધુ નજીક લાવે છે.
આ ટેકનોલોજી સંપૂર્ણ નથી. ગેમ્સ અથવા કસ્ટમ-ડ્રોન ઇન્ટરફેસ ધરાવતી એપ્સ પર UIA નિષ્ફળ જાય છે. સુરક્ષાના જોખમો પણ છે. તમારે ગાર્ડરેલ્સ (guardrails) સેટ કરવા જ જોઈએ.
AI એજન્ટ્સ માટે હંમેશા આ નિયમોનું પાલન કરો:
- કોઈ પેમેન્ટ નહીં.
- ફાઇલ ડિલીટ કરવી નહીં.
- તમારી મંજૂરી વિના કોઈ પબ્લિક પોસ્ટિંગ નહીં.
- કાર્યની બહારના ખાનગી ડેટાનો એક્સેસ નહીં.
- દરેક એક્શન માટે પુરાવા લોગ કરો.
AI એજન્ટ્સનું ભવિષ્ય માત્ર બહેતર તર્ક (reasoning) વિશે નથી, પરંતુ બહેતર હાથો (hands) વિશે છે. એજન્ટે એપ્લિકેશન સ્ટેટ વાંચવું જોઈએ, ઓછા જોખમી કાર્યો કરવા જોઈએ અને જો કાર્ય જોખમી બને તો અટકી જવું જોઈએ.
AI હજુ Windows પર કબજો કરી રહ્યું નથી. પરંતુ ડેસ્કટોપ ઓટોમેશન હવે વધુ વાસ્તવિક બની ગયું છે.
Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6
Optional learning community: https://t.me/GyaanSetuAi