AI สามารถควบคุม Windows ได้แล้วโดยไม่ต้องใช้ Vision Models
AI ไม่จำเป็นต้องมองเห็นหน้าจอ Desktop ของคุณเพื่อควบคุมมันอีกต่อไป
AI agent ส่วนใหญ่ทำงานโดยการถ่ายภาพหน้าจอ พวกมันจะถาม vision model ว่ามีอะไรอยู่บนหน้าจอบ้าง แล้วจึงคาดเดาว่าปุ่มต่างๆ อยู่ตรงไหน จากนั้นจึงเลื่อนเมาส์ วิธีนี้ทั้งช้าและมีค่าใช้จ่ายสูง อีกทั้งยังพังได้ง่ายหาก UI เปลี่ยนแปลงไปแม้เพียงเล็กน้อย
วิธีการใหม่กำลังเกิดขึ้น เครื่องมือที่ใช้ Windows MCP จะใช้ UI Automation หรือ UIA
UIA คืออินเทอร์เฟซเพื่อการเข้าถึง (accessibility interface) ที่ถูกสร้างขึ้นมาใน Windows แทนที่จะมองที่พิกเซล AI จะอ่านข้อมูลที่มีโครงสร้าง (structured data) แทน ซึ่งมันจะมองเห็น:
- ปุ่ม (Buttons)
- ช่องกรอกข้อมูล (Input fields)
- เมนู (Menus)
- ชื่อหน้าต่าง (Window titles)
- แถบที่อยู่ (Address bars)
- ลำดับชั้นของคอนโทรล (Control hierarchies)
Agent จะอ่านว่า "นี่คือปุ่มที่ชื่อว่า Publish" แทนที่จะเป็นการคาดเดาจากรูปภาพ
ผมได้ทดสอบ qwen-code/open-computer-use บนเครื่อง Windows ของผม ผลลัพธ์ที่ได้นั้นชัดเจนมาก Agent สามารถตรวจพบแอปพลิเคชันที่กำลังรันอยู่ เช่น Chrome, Obsidian และ terminal มันสามารถระบุส่วนต่างๆ ของ Chrome ได้อย่างเฉพาะเจาะจง เช่น แถบที่อยู่และปุ่มรีเฟรช และสามารถหาพิกัดที่แม่นยำสำหรับการสั่งการได้
เรื่องนี้สำคัญมากสำหรับใครก็ตามที่ทำธุรกิจ งานจริงๆ นั้นมีความยุ่งเหยิง คุณต้องอัปโหลดไฟล์ กรอกฟอร์มบนเว็บ และจัดการกับหน้าต่างโต้ตอบของระบบ (system dialogs) การทำ Browser automation เพียงอย่างเดียวมักจะล้มเหลวเพราะ DOM selectors มักจะเปลี่ยนไป
AI stack ที่ใช้งานได้จริงควรมีลักษณะดังนี้:
- CDP สำหรับงานบนเบราว์เซอร์
- UIA สำหรับ Windows และคอนโทรลแบบ native
- ใช้ Vision models เฉพาะในกรณีที่เป็นแผนสำรองเท่านั้น
สิ่งนี้ทำให้ AI เข้าใกล้การเป็นพนักงานในเครื่อง (local employee) ที่แท้จริงมากขึ้น
เทคโนโลยีนี้ยังไม่สมบูรณ์แบบ UIA อาจใช้ไม่ได้กับเกมหรือแอปที่มีอินเทอร์เฟซแบบวาดขึ้นเอง (custom-drawn interfaces) นอกจากนี้ยังมีเรื่องความเสี่ยงด้านความปลอดภัย คุณจึงต้องตั้งกฎเกณฑ์ (guardrails) ไว้ด้วย
ควรปฏิบัติตามกฎเหล่านี้เสมอสำหรับ AI agent:
- ห้ามทำธุรกรรมการชำระเงิน
- ห้ามลบไฟล์
- ห้ามโพสต์ลงสาธารณะโดยไม่ได้รับความเห็นชอบจากคุณ
- ห้ามเข้าถึงข้อมูลส่วนตัวที่ไม่เกี่ยวข้องกับงาน
- บันทึกหลักฐานสำหรับการกระทำทุกอย่าง
อนาคตของ AI agent คือเรื่องของ "มือ" ที่ดีขึ้น ไม่ใช่แค่ "การใช้เหตุผล" ที่ดีขึ้นเท่านั้น Agent จะต้องสามารถอ่านสถานะของแอปพลิเคชัน ดำเนินการในส่วนที่มีความเสี่ยงต่ำ และหยุดทำงานหากงานนั้นเริ่มมีความเสี่ยงอันตราย
AI ยังไม่ได้เข้ามาควบคุม Windows ทั้งหมดในตอนนี้ แต่การทำ Desktop automation เพิ่งจะกลายเป็นเรื่องที่สมจริงขึ้นมาก
Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6
Optional learning community: https://t.me/GyaanSetuAi