AI હવે વિઝન મોડલ્સ વગર Windows ને નિયંત્રિત કરી શકે છે

AI ને હવે તેને નિયંત્રિત કરવા માટે તમારા ડેસ્કટોપને જોવાની જરૂર નથી.

મોટાભાગના AI એજન્ટ્સ સ્ક્રીનશોટ લઈને કામ કરે છે. તેઓ વિઝન મોડલને પૂછે છે કે સ્ક્રીન પર શું છે. તેઓ અંદાજ લગાવે છે કે બટન ક્યાં છે. પછી તેઓ માઉસને હલાવે છે. આ પદ્ધતિ ધીમી અને ખર્ચાળ છે. જો UI માં થોડો પણ ફેરફાર થાય તો તે નિષ્ફળ જાય છે.

એક નવો રસ્તો સામે આવી રહ્યો છે. Windows MCP નો ઉપયોગ કરતા ટૂલ્સ UI Automation, અથવા UIA નો ઉપયોગ કરે છે.

UIA એ Windows માં બિલ્ટ-ઇન એક્સેસિબિલિટી ઇન્ટરફેસ છે. પિક્સેલ્સ જોવાને બદલે, AI સ્ટ્રક્ચર્ડ ડેટા વાંચે છે. તે જુએ છે:

એજન્ટ ઈમેજ પરથી અંદાજ લગાવવાને બદલે "આ Publish નામનું બટન છે" તેવું વાંચે છે.

મેં મારા Windows મશીન પર qwen-code/open-computer-use ટેસ્ટ કર્યું. પરિણામો સ્પષ્ટ હતા. એજન્ટે Chrome, Obsidian અને terminal જેવી મારી ચાલતી એપ્સ શોધી કાઢી. તેણે Chrome ના એડ્રેસ બાર અને રિફ્રેશ બટન જેવા ચોક્કસ ભાગોને ઓળખી કાઢ્યા. તેણે એક્શન માટે ચોક્કસ કોઓર્ડિનેટ્સ (coordinates) શોધી કાઢ્યા.

આ વ્યવસાય ચલાવતા કોઈપણ વ્યક્તિ માટે મહત્વનું છે. વાસ્તવિક કામ જટિલ હોય છે. તમારે ફાઇલો અપલોડ કરવી પડે છે, વેબ ફોર્મ ભરવા પડે છે અને સિસ્ટમ ડાયલોગ્સ હેન્ડલ કરવા પડે છે. માત્ર બ્રાઉઝર ઓટોમેશન નિષ્ફળ જાય છે કારણ કે DOM સિલેક્ટર્સ તૂટી જાય છે.

એક વ્યવહારુ AI સ્ટેક આવો હોવો જોઈએ:

આ AI ને વાસ્તવિક લોકલ કર્મચારીની વધુ નજીક લાવે છે.

આ ટેકનોલોજી સંપૂર્ણ નથી. ગેમ્સ અથવા કસ્ટમ-ડ્રોન ઇન્ટરફેસ ધરાવતી એપ્સ પર UIA નિષ્ફળ જાય છે. સુરક્ષાના જોખમો પણ છે. તમારે ગાર્ડરેલ્સ (guardrails) સેટ કરવા જ જોઈએ.

AI એજન્ટ્સ માટે હંમેશા આ નિયમોનું પાલન કરો:

AI એજન્ટ્સનું ભવિષ્ય માત્ર બહેતર તર્ક (reasoning) વિશે નથી, પરંતુ બહેતર હાથો (hands) વિશે છે. એજન્ટે એપ્લિકેશન સ્ટેટ વાંચવું જોઈએ, ઓછા જોખમી કાર્યો કરવા જોઈએ અને જો કાર્ય જોખમી બને તો અટકી જવું જોઈએ.

AI હજુ Windows પર કબજો કરી રહ્યું નથી. પરંતુ ડેસ્કટોપ ઓટોમેશન હવે વધુ વાસ્તવિક બની ગયું છે.

Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6

Optional learning community: https://t.me/GyaanSetuAi