𝗔𝗜 𝗖𝗮𝗻 𝗡𝗼𝘄 𝗖𝗼𝗻𝘁𝗿𝗼𝗹 𝗪𝗶𝗻𝗱𝗼𝘄𝘀 𝗪𝗶𝘁𝗵𝗼𝘂𝘁 𝗩𝗶𝘀𝗶𝗼𝗻 𝗠𝗼𝗱𝗲𝗹𝘀

AI ನಿಮ್ಮ ಡೆಸ್ಕ್‌ಟಾಪ್ ಅನ್ನು ನಿಯಂತ್ರಿಸಲು ಅದನ್ನು ನೋಡುವ ಅಗತ್ಯವಿಲ್ಲ.

ಹೆಚ್ಚಿನ AI ಏಜೆಂಟ್‌ಗಳು ಸ್ಕ್ರೀನ್‌ಶಾಟ್‌ಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವ ಮೂಲಕ ಕೆಲಸ ಮಾಡುತ್ತವೆ. ಪರದೆಯ ಮೇಲೆ ಏನಿದೆ ಎಂದು ಅವು ವಿಸನ್ ಮಾಡೆಲ್ ಅನ್ನು ಕೇಳುತ್ತವೆ. ಬಟನ್ ಎಲ್ಲಿದೆ ಎಂದು ಅವು ಊಹಿಸುತ್ತವೆ. ನಂತರ ಅವು ಮೌಸ್ ಅನ್ನು ಚಲಾಯಿಸುತ್ತವೆ. ಈ ವಿಧಾನವು ನಿಧಾನ ಮತ್ತು ದುಬಾರಿಯಾಗಿದೆ. UI ಸ್ವಲ್ಪ ಬದಲಾದರೂ ಇದು ವಿಫಲವಾಗುತ್ತದೆ.

ಒಂದು ಹೊಸ ವಿಧಾನವು ಹೊರಹೊಮ್ಮುತ್ತಿದೆ. Windows MCP ಬಳಸುವ ಪರಿಕರಗಳು UI Automation ಅಥವಾ UIA ಅನ್ನು ಬಳಸುತ್ತವೆ.

UIA ಎಂಬುದು Windows ನಲ್ಲಿ ಅಂತರ್ಗತವಾಗಿರುವ ಒಂದು ಅಕ್ಸೆಸಿಬಿಲಿಟಿ ಇಂಟರ್ಫೇಸ್ ಆಗಿದೆ. ಪಿಕ್ಸೆಲ್‌ಗಳನ್ನು ನೋಡುವ ಬದಲಿಗೆ, AI ರಚನಾತ್ಮಕ ಡೇಟಾವನ್ನು (structured data) ಓದುತ್ತದೆ. ಅದು ಇವುಗಳನ್ನು ನೋಡುತ್ತದೆ:

ಏಜೆಂಟ್ ಚಿತ್ರದಿಂದ ಊಹಿಸುವ ಬದಲು "ಇದು Publish ಎಂಬ ಹೆಸರಿನ ಬಟನ್" ಎಂದು ಓದುತ್ತದೆ.

ನಾನು ನನ್ನ Windows ಮೆಷಿನ್‌ನಲ್ಲಿ qwen-code/open-computer-use ಅನ್ನು ಪರೀಕ್ಷಿಸಿದೆ. ಫಲಿತಾಂಶಗಳು ಸ್ಪಷ್ಟವಾಗಿದ್ದವು. ಏಜೆಂಟ್ Chrome, Obsidian ಮತ್ತು ಟರ್ಮಿನಲ್‌ನಂತಹ ನಾನು ಚಲಾಯಿಸುತ್ತಿರುವ ಅಪ್ಲಿಕೇಶನ್‌ಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಿತು. ಇದು Chrome ನ ಅಡ್ರೆಸ್ ಬಾರ್ ಮತ್ತು ರಿಫ್ರೆಶ್ ಬಟನ್‌ನಂತಹ ನಿರ್ದಿಷ್ಟ ಭಾಗಗಳನ್ನು ಗುರುತಿಸಿತು. ಇದು ಕ್ರಿಯೆಗಳಿಗಾಗಿ ನಿಖರವಾದ ಕೋಆರ್ಡಿನೇಟ್‌ಗಳನ್ನು ಕಂಡುಕೊಂಡಿತು.

ವ್ಯವಹಾರ ನಡೆಸುವ ಯಾರಿಗಾದರೂ ಇದು ಮುಖ್ಯವಾಗುತ್ತದೆ. ನೈಜ ಕೆಲಸವು ಸಂಕೀರ್ಣವಾಗಿರುತ್ತದೆ. ನೀವು ಫೈಲ್‌ಗಳನ್ನು ಅಪ್‌ಲೋಡ್ ಮಾಡಬೇಕಾಗುತ್ತದೆ, ವೆಬ್ ಫಾರ್ಮ್‌ಗಳನ್ನು ತುಂಬಬೇಕಾಗುತ್ತದೆ ಮತ್ತು ಸಿಸ್ಟಮ್ ಡೈಲಾಗ್‌ಗಳನ್ನು ನಿರ್ವಹಿಸಬೇಕಾಗುತ್ತದೆ. DOM ಸೆಲೆಕ್ಟರ್‌ಗಳು ವಿಫಲವಾಗುವುದರಿಂದ ಬ್ರೌಸರ್ ಆಟೊಮೇಷನ್ ಮಾತ್ರ ಸಾಕಾಗುವುದಿಲ್ಲ.

ಒಂದು ಪ್ರಾಯೋಗಿಕ AI ಸ್ಟ್ಯಾಕ್ ಹೀಗಿರಬೇಕು:

ಇದು AI ಅನ್ನು ನೈಜ ಸ್ಥಳೀಯ ಉದ್ಯೋಗಿಯ ಹತ್ತಿರಕ್ಕೆ ಕೊಂಡೊಯ್ಯುತ್ತದೆ.

ಈ ತಂತ್ರಜ್ಞಾನವು ಪರಿಪೂರ್ಣವಲ್ಲ. ಗೇಮ್‌ಗಳು ಅಥವಾ ಕಸ್ಟಮ್-ಡ್ರಾನ್ ಇಂಟರ್ಫೇಸ್‌ಗಳನ್ನು ಹೊಂದಿರುವ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಲ್ಲಿ UIA ವಿಫಲವಾಗುತ್ತದೆ. ಭದ್ರತಾ ಅಪಾಯಗಳೂ ಇವೆ. ನೀವು ಗಾರ್ಡ್‌ರೈಲ್‌ಗಳನ್ನು ಹೊಂದಿಸಬೇಕು.

AI ಏಜೆಂಟ್‌ಗಳಿಗಾಗಿ ಯಾವಾಗಲೂ ಈ ನಿಯಮಗಳನ್ನು ಪಾಲಿಸಿ:

AI ಏಜೆಂಟ್‌ಗಳ ಭವಿಷ್ಯವು ಕೇವಲ ಉತ್ತಮ ತರ್ಕದ (reasoning) ಬಗ್ಗೆ ಮಾತ್ರವಲ್ಲ, ಉತ್ತಮ ಕೈಗಳ (hands) ಬಗ್ಗೆಯೂ ಆಗಿದೆ. ಏಜೆಂಟ್ ಅಪ್ಲಿಕೇಶನ್ ಸ್ಥಿತಿಯನ್ನು ಓದಬೇಕು, ಕಡಿಮೆ ಅಪಾಯದ ಕ್ರಿಯೆಗಳನ್ನು ಮಾಡಬೇಕು ಮತ್ತು ಕಾರ್ಯವು ಅಪಾಯಕಾರಿಯಾದರೆ ನಿಲ್ಲಿಸಬೇಕು.

AI ಇನ್ನೂ Windows ಅನ್ನು ವಶಪಡಿಸಿಕೊಳ್ಳುತ್ತಿಲ್ಲ. ಆದರೆ ಡೆಸ್ಕ್‌ಟಾಪ್ ಆಟೊಮೇಷನ್ ಈಗ ಹೆಚ್ಚು ವಾಸ್ತವಿಕವಾಗಿದೆ.

Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6

Optional learning community: https://t.me/GyaanSetuAi