AI สามารถควบคุม Windows ได้แล้วโดยไม่ต้องใช้ Vision Models

📅3 hours ago⏱2 min read

AI สามารถควบคุม Windows ได้แล้วโดยไม่ต้องใช้ Vision Models

AI ไม่จำเป็นต้องมองเห็นหน้าจอ Desktop ของคุณเพื่อควบคุมมันอีกต่อไป

AI agent ส่วนใหญ่ทำงานโดยการถ่ายภาพหน้าจอ พวกมันจะถาม vision model ว่ามีอะไรอยู่บนหน้าจอบ้าง แล้วจึงคาดเดาว่าปุ่มต่างๆ อยู่ตรงไหน จากนั้นจึงเลื่อนเมาส์ วิธีนี้ทั้งช้าและมีค่าใช้จ่ายสูง อีกทั้งยังพังได้ง่ายหาก UI เปลี่ยนแปลงไปแม้เพียงเล็กน้อย

วิธีการใหม่กำลังเกิดขึ้น เครื่องมือที่ใช้ Windows MCP จะใช้ UI Automation หรือ UIA

UIA คืออินเทอร์เฟซเพื่อการเข้าถึง (accessibility interface) ที่ถูกสร้างขึ้นมาใน Windows แทนที่จะมองที่พิกเซล AI จะอ่านข้อมูลที่มีโครงสร้าง (structured data) แทน ซึ่งมันจะมองเห็น:

ปุ่ม (Buttons)
ช่องกรอกข้อมูล (Input fields)
เมนู (Menus)
ชื่อหน้าต่าง (Window titles)
แถบที่อยู่ (Address bars)
ลำดับชั้นของคอนโทรล (Control hierarchies)

Agent จะอ่านว่า "นี่คือปุ่มที่ชื่อว่า Publish" แทนที่จะเป็นการคาดเดาจากรูปภาพ

ผมได้ทดสอบ qwen-code/open-computer-use บนเครื่อง Windows ของผม ผลลัพธ์ที่ได้นั้นชัดเจนมาก Agent สามารถตรวจพบแอปพลิเคชันที่กำลังรันอยู่ เช่น Chrome, Obsidian และ terminal มันสามารถระบุส่วนต่างๆ ของ Chrome ได้อย่างเฉพาะเจาะจง เช่น แถบที่อยู่และปุ่มรีเฟรช และสามารถหาพิกัดที่แม่นยำสำหรับการสั่งการได้

เรื่องนี้สำคัญมากสำหรับใครก็ตามที่ทำธุรกิจ งานจริงๆ นั้นมีความยุ่งเหยิง คุณต้องอัปโหลดไฟล์ กรอกฟอร์มบนเว็บ และจัดการกับหน้าต่างโต้ตอบของระบบ (system dialogs) การทำ Browser automation เพียงอย่างเดียวมักจะล้มเหลวเพราะ DOM selectors มักจะเปลี่ยนไป

AI stack ที่ใช้งานได้จริงควรมีลักษณะดังนี้:

CDP สำหรับงานบนเบราว์เซอร์
UIA สำหรับ Windows และคอนโทรลแบบ native
ใช้ Vision models เฉพาะในกรณีที่เป็นแผนสำรองเท่านั้น

สิ่งนี้ทำให้ AI เข้าใกล้การเป็นพนักงานในเครื่อง (local employee) ที่แท้จริงมากขึ้น

เทคโนโลยีนี้ยังไม่สมบูรณ์แบบ UIA อาจใช้ไม่ได้กับเกมหรือแอปที่มีอินเทอร์เฟซแบบวาดขึ้นเอง (custom-drawn interfaces) นอกจากนี้ยังมีเรื่องความเสี่ยงด้านความปลอดภัย คุณจึงต้องตั้งกฎเกณฑ์ (guardrails) ไว้ด้วย

ควรปฏิบัติตามกฎเหล่านี้เสมอสำหรับ AI agent:

ห้ามทำธุรกรรมการชำระเงิน
ห้ามลบไฟล์
ห้ามโพสต์ลงสาธารณะโดยไม่ได้รับความเห็นชอบจากคุณ
ห้ามเข้าถึงข้อมูลส่วนตัวที่ไม่เกี่ยวข้องกับงาน
บันทึกหลักฐานสำหรับการกระทำทุกอย่าง

อนาคตของ AI agent คือเรื่องของ "มือ" ที่ดีขึ้น ไม่ใช่แค่ "การใช้เหตุผล" ที่ดีขึ้นเท่านั้น Agent จะต้องสามารถอ่านสถานะของแอปพลิเคชัน ดำเนินการในส่วนที่มีความเสี่ยงต่ำ และหยุดทำงานหากงานนั้นเริ่มมีความเสี่ยงอันตราย

AI ยังไม่ได้เข้ามาควบคุม Windows ทั้งหมดในตอนนี้ แต่การทำ Desktop automation เพิ่งจะกลายเป็นเรื่องที่สมจริงขึ้นมาก

Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6

Optional learning community: https://t.me/GyaanSetuAi

AI สามารถควบคุม Windows ได้แล้วโดยไม่ต้องใช้ Vision Models

Continue reading

𝗪𝗼𝗿𝗹𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗔𝗻𝗱 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲

วิธีที่ถูกต้องในการสร้างสถาปัตยกรรม AI

𝗧𝗵𝗲 𝗣𝗼𝘄𝗲𝗿 𝗼𝗳 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲

𝗠𝗖𝗣 𝗦𝗲𝗿𝘃𝗲𝗿𝘀 𝗠𝗮𝗸𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗨𝘀𝗲𝗳𝘂𝗹 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

𝗧𝗵𝗲 𝗗𝗮𝘆 𝗔𝗜 𝗔𝗿𝗴𝘂𝗲𝗱 𝗪𝗶𝘁𝗵 𝗠𝗗𝗡 𝗔𝗻𝗱 𝗟𝗼𝘀𝘁