𝗔𝗜 𝗖𝗮𝗻 𝗡𝗼𝘄 𝗖𝗼𝗻𝘁𝗿𝗼𝗹 𝗪𝗶𝗻𝗱𝗼𝘄𝘀 𝗪𝗶𝘁𝗵𝗼𝘂𝘁 𝗩𝗶𝘀𝗶𝗼𝗻 𝗠𝗼𝗱𝗲𝗹𝘀
AI ನಿಮ್ಮ ಡೆಸ್ಕ್ಟಾಪ್ ಅನ್ನು ನಿಯಂತ್ರಿಸಲು ಅದನ್ನು ನೋಡುವ ಅಗತ್ಯವಿಲ್ಲ.
ಹೆಚ್ಚಿನ AI ಏಜೆಂಟ್ಗಳು ಸ್ಕ್ರೀನ್ಶಾಟ್ಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವ ಮೂಲಕ ಕೆಲಸ ಮಾಡುತ್ತವೆ. ಪರದೆಯ ಮೇಲೆ ಏನಿದೆ ಎಂದು ಅವು ವಿಸನ್ ಮಾಡೆಲ್ ಅನ್ನು ಕೇಳುತ್ತವೆ. ಬಟನ್ ಎಲ್ಲಿದೆ ಎಂದು ಅವು ಊಹಿಸುತ್ತವೆ. ನಂತರ ಅವು ಮೌಸ್ ಅನ್ನು ಚಲಾಯಿಸುತ್ತವೆ. ಈ ವಿಧಾನವು ನಿಧಾನ ಮತ್ತು ದುಬಾರಿಯಾಗಿದೆ. UI ಸ್ವಲ್ಪ ಬದಲಾದರೂ ಇದು ವಿಫಲವಾಗುತ್ತದೆ.
ಒಂದು ಹೊಸ ವಿಧಾನವು ಹೊರಹೊಮ್ಮುತ್ತಿದೆ. Windows MCP ಬಳಸುವ ಪರಿಕರಗಳು UI Automation ಅಥವಾ UIA ಅನ್ನು ಬಳಸುತ್ತವೆ.
UIA ಎಂಬುದು Windows ನಲ್ಲಿ ಅಂತರ್ಗತವಾಗಿರುವ ಒಂದು ಅಕ್ಸೆಸಿಬಿಲಿಟಿ ಇಂಟರ್ಫೇಸ್ ಆಗಿದೆ. ಪಿಕ್ಸೆಲ್ಗಳನ್ನು ನೋಡುವ ಬದಲಿಗೆ, AI ರಚನಾತ್ಮಕ ಡೇಟಾವನ್ನು (structured data) ಓದುತ್ತದೆ. ಅದು ಇವುಗಳನ್ನು ನೋಡುತ್ತದೆ:
- ಬಟನ್ಗಳು
- ಇನ್ಪುಟ್ ಫೀಲ್ಡ್ಗಳು
- ಮೆನುಗಳು
- ವಿಂಡೋ ಶೀರ್ಷಿಕೆಗಳು
- ಅಡ್ರೆಸ್ ಬಾರ್ಗಳು
- ಕಂಟ್ರೋಲ್ ಹೈರಾರ್ಕಿಗಳು
ಏಜೆಂಟ್ ಚಿತ್ರದಿಂದ ಊಹಿಸುವ ಬದಲು "ಇದು Publish ಎಂಬ ಹೆಸರಿನ ಬಟನ್" ಎಂದು ಓದುತ್ತದೆ.
ನಾನು ನನ್ನ Windows ಮೆಷಿನ್ನಲ್ಲಿ qwen-code/open-computer-use ಅನ್ನು ಪರೀಕ್ಷಿಸಿದೆ. ಫಲಿತಾಂಶಗಳು ಸ್ಪಷ್ಟವಾಗಿದ್ದವು. ಏಜೆಂಟ್ Chrome, Obsidian ಮತ್ತು ಟರ್ಮಿನಲ್ನಂತಹ ನಾನು ಚಲಾಯಿಸುತ್ತಿರುವ ಅಪ್ಲಿಕೇಶನ್ಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಿತು. ಇದು Chrome ನ ಅಡ್ರೆಸ್ ಬಾರ್ ಮತ್ತು ರಿಫ್ರೆಶ್ ಬಟನ್ನಂತಹ ನಿರ್ದಿಷ್ಟ ಭಾಗಗಳನ್ನು ಗುರುತಿಸಿತು. ಇದು ಕ್ರಿಯೆಗಳಿಗಾಗಿ ನಿಖರವಾದ ಕೋಆರ್ಡಿನೇಟ್ಗಳನ್ನು ಕಂಡುಕೊಂಡಿತು.
ವ್ಯವಹಾರ ನಡೆಸುವ ಯಾರಿಗಾದರೂ ಇದು ಮುಖ್ಯವಾಗುತ್ತದೆ. ನೈಜ ಕೆಲಸವು ಸಂಕೀರ್ಣವಾಗಿರುತ್ತದೆ. ನೀವು ಫೈಲ್ಗಳನ್ನು ಅಪ್ಲೋಡ್ ಮಾಡಬೇಕಾಗುತ್ತದೆ, ವೆಬ್ ಫಾರ್ಮ್ಗಳನ್ನು ತುಂಬಬೇಕಾಗುತ್ತದೆ ಮತ್ತು ಸಿಸ್ಟಮ್ ಡೈಲಾಗ್ಗಳನ್ನು ನಿರ್ವಹಿಸಬೇಕಾಗುತ್ತದೆ. DOM ಸೆಲೆಕ್ಟರ್ಗಳು ವಿಫಲವಾಗುವುದರಿಂದ ಬ್ರೌಸರ್ ಆಟೊಮೇಷನ್ ಮಾತ್ರ ಸಾಕಾಗುವುದಿಲ್ಲ.
ಒಂದು ಪ್ರಾಯೋಗಿಕ AI ಸ್ಟ್ಯಾಕ್ ಹೀಗಿರಬೇಕು:
- ಬ್ರೌಸರ್ ಕಾರ್ಯಗಳಿಗಾಗಿ CDP.
- Windows ಮತ್ತು ನೇಟಿವ್ ಕಂಟ್ರೋಲ್ಗಳಿಗಾಗಿ UIA.
- ವಿಸನ್ ಮಾಡೆಲ್ಗಳನ್ನು ಕೇವಲ ಫಾಲ್ಬ್ಯಾಕ್ ಆಗಿ ಮಾತ್ರ ಬಳಸಿ.
ಇದು AI ಅನ್ನು ನೈಜ ಸ್ಥಳೀಯ ಉದ್ಯೋಗಿಯ ಹತ್ತಿರಕ್ಕೆ ಕೊಂಡೊಯ್ಯುತ್ತದೆ.
ಈ ತಂತ್ರಜ್ಞಾನವು ಪರಿಪೂರ್ಣವಲ್ಲ. ಗೇಮ್ಗಳು ಅಥವಾ ಕಸ್ಟಮ್-ಡ್ರಾನ್ ಇಂಟರ್ಫೇಸ್ಗಳನ್ನು ಹೊಂದಿರುವ ಅಪ್ಲಿಕೇಶನ್ಗಳಲ್ಲಿ UIA ವಿಫಲವಾಗುತ್ತದೆ. ಭದ್ರತಾ ಅಪಾಯಗಳೂ ಇವೆ. ನೀವು ಗಾರ್ಡ್ರೈಲ್ಗಳನ್ನು ಹೊಂದಿಸಬೇಕು.
AI ಏಜೆಂಟ್ಗಳಿಗಾಗಿ ಯಾವಾಗಲೂ ಈ ನಿಯಮಗಳನ್ನು ಪಾಲಿಸಿ:
- ಯಾವುದೇ ಪಾವತಿಗಳಿಲ್ಲ.
- ಯಾವುದೇ ಫೈಲ್ ಡಿಲೀಟ್ ಮಾಡಬಾರದು.
- ನಿಮ್ಮ ಅನುಮತಿಯಿಲ್ಲದೆ ಯಾವುದೇ ಸಾರ್ವಜನಿಕ ಪೋಸ್ಟಿಂಗ್ ಮಾಡಬಾರದು.
- ಕಾರ್ಯದ ಹೊರಗಿನ ಖಾಸಗಿ ಡೇಟಾವನ್ನು ಪ್ರವೇಶಿಸಬಾರದು.
- ಪ್ರತಿಯೊಂದು ಕ್ರಿಯೆಗೂ ಸಾಕ್ಷ್ಯವನ್ನು ಲಾಗ್ ಮಾಡಿ.
AI ಏಜೆಂಟ್ಗಳ ಭವಿಷ್ಯವು ಕೇವಲ ಉತ್ತಮ ತರ್ಕದ (reasoning) ಬಗ್ಗೆ ಮಾತ್ರವಲ್ಲ, ಉತ್ತಮ ಕೈಗಳ (hands) ಬಗ್ಗೆಯೂ ಆಗಿದೆ. ಏಜೆಂಟ್ ಅಪ್ಲಿಕೇಶನ್ ಸ್ಥಿತಿಯನ್ನು ಓದಬೇಕು, ಕಡಿಮೆ ಅಪಾಯದ ಕ್ರಿಯೆಗಳನ್ನು ಮಾಡಬೇಕು ಮತ್ತು ಕಾರ್ಯವು ಅಪಾಯಕಾರಿಯಾದರೆ ನಿಲ್ಲಿಸಬೇಕು.
AI ಇನ್ನೂ Windows ಅನ್ನು ವಶಪಡಿಸಿಕೊಳ್ಳುತ್ತಿಲ್ಲ. ಆದರೆ ಡೆಸ್ಕ್ಟಾಪ್ ಆಟೊಮೇಷನ್ ಈಗ ಹೆಚ್ಚು ವಾಸ್ತವಿಕವಾಗಿದೆ.
Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6
Optional learning community: https://t.me/GyaanSetuAi