𝗔𝗜 𝗖𝗮𝗻 𝗡𝗼𝘄 𝗖𝗼𝗻𝘁𝗿𝗼𝗹 𝗪𝗶𝗻𝗱𝗼𝘄𝘀 𝗪𝗶𝘁𝗵𝗼𝘂𝘁 𝗩𝗶𝘀𝗶𝗼𝗻 𝗠𝗼𝗱𝗲𝗹𝘀
AI کو اب اپنے کنٹرول کے لیے آپ کے ڈیسک ٹاپ کو دیکھنے کی ضرورت نہیں ہے۔
زیادہ تر AI ایجنٹس اسکرین شاٹس لینے کے ذریعے کام کرتے ہیں۔ وہ ایک وژن ماڈل سے پوچھتے ہیں کہ اسکرین پر کیا ہے۔ وہ اندازہ لگاتے ہیں کہ بٹن کہاں ہے۔ پھر وہ ماؤس کو حرکت دیتے ہیں۔ یہ طریقہ سست اور مہنگا ہے۔ اگر UI میں تھوڑی سی بھی تبدیلی آئے تو یہ کام کرنا چھوڑ دیتا ہے۔
ایک نیا طریقہ اب سامنے آ رہا ہے۔ Windows MCP استعمال کرنے والے ٹولز UI Automation، یا UIA کا استعمال کرتے ہیں۔
UIA ونڈوز میں موجود ایک accessibility انٹرفیس ہے۔ پکسلز کو دیکھنے کے بجائے، AI منظم ڈیٹا (structured data) پڑھتا ہے۔ یہ دیکھتا ہے:
- بٹنز
- ان پٹ فیلڈز
- مینیوز
- ونڈو کے عنوانات
- ایڈریس بارز
- کنٹرول ہائیرارکیز
ایجنٹ تصویر سے اندازہ لگانے کے بجائے یہ پڑھتا ہے کہ "یہ Publish نام کا ایک بٹن ہے"۔
میں نے اپنی Windows مشین پر qwen-code/open-computer-use کا تجربہ کیا۔ نتائج واضح تھے۔ ایجنٹ نے میرے چلنے والے ایپس جیسے Chrome، Obsidian، اور terminal کو پہچان لیا۔ اس نے Chrome کے مخصوص حصوں جیسے ایڈریس بار اور ریفریش بٹن کی شناخت کی۔ اس نے اقدامات کے لیے درست کوآرڈینیٹس (coordinates) تلاش کر لیے۔
یہ کسی بھی کاروبار کو چلانے والے کے لیے اہم ہے۔ اصل کام الجھا ہوا ہوتا ہے۔ آپ کو فائلیں اپ لوڈ کرنے، ویب فارم بھرنے، اور سسٹم ڈائیلاگز کو سنبھالنے کی ضرورت ہوتی ہے۔ صرف براؤزر آٹومیشن ناکام ہو جاتی ہے کیونکہ DOM سلیکٹرز ٹوٹ جاتے ہیں۔
ایک عملی AI اسٹیک (stack) ایسا ہونا چاہیے:
- براؤزر کے کاموں کے لیے CDP۔
- Windows اور نیٹیو کنٹرولز کے لیے UIA۔
- وژن ماڈلز صرف بطور متبادل (fallback)۔
یہ AI کو ایک حقیقی مقامی ملازم کے قریب لے جاتا ہے۔
یہ ٹیکنالوجی مکمل طور پر درست نہیں ہے۔ UIA گیمز یا کسٹم ڈرا انٹرفیس والے ایپس پر ناکام ہو جاتا ہے۔ اس میں سیکیورٹی کے خطرات بھی ہیں۔ آپ کو گارڈ ریلز (guardrails) قائم کرنے ہوں گی۔
AI ایجنٹس کے لیے ہمیشہ ان اصولوں پر عمل کریں:
- کوئی ادائیگی نہیں۔
- فائل ڈیلیٹ نہ کرنا۔
- آپ کی منظوری کے بغیر کوئی عوامی پوسٹنگ نہیں۔
- ٹاسک سے باہر نجی ڈیٹا تک رسائی نہیں۔
- ہر عمل کے لیے ثبوت لاگ (log) کریں۔
AI ایجنٹس کا مستقبل صرف بہتر منطق (reasoning) کے بارے میں نہیں بلکہ بہتر ہاتھوں (hands) کے بارے میں بھی ہے۔ ایک ایجنٹ کو ایپلی کیشن کی حالت پڑھنی چاہیے، کم خطرے والے اقدامات کرنے چاہئیں، اور اگر کوئی کام خطرناک ہو جائے تو رک جانا چاہیے۔
AI ابھی Windows پر قبضہ نہیں کر رہا ہے۔ لیکن ڈیسک ٹاپ آٹومیشن اب بہت زیادہ حقیقت پسندانہ ہو گئی ہے۔
Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6
Optional learning community: https://t.me/GyaanSetuAi