AI สามารถควบคุม Windows ได้แล้วโดยไม่ต้องใช้ Vision Models

AI ไม่จำเป็นต้องมองเห็นหน้าจอ Desktop ของคุณเพื่อควบคุมมันอีกต่อไป

AI agent ส่วนใหญ่ทำงานโดยการถ่ายภาพหน้าจอ พวกมันจะถาม vision model ว่ามีอะไรอยู่บนหน้าจอบ้าง แล้วจึงคาดเดาว่าปุ่มต่างๆ อยู่ตรงไหน จากนั้นจึงเลื่อนเมาส์ วิธีนี้ทั้งช้าและมีค่าใช้จ่ายสูง อีกทั้งยังพังได้ง่ายหาก UI เปลี่ยนแปลงไปแม้เพียงเล็กน้อย

วิธีการใหม่กำลังเกิดขึ้น เครื่องมือที่ใช้ Windows MCP จะใช้ UI Automation หรือ UIA

UIA คืออินเทอร์เฟซเพื่อการเข้าถึง (accessibility interface) ที่ถูกสร้างขึ้นมาใน Windows แทนที่จะมองที่พิกเซล AI จะอ่านข้อมูลที่มีโครงสร้าง (structured data) แทน ซึ่งมันจะมองเห็น:

Agent จะอ่านว่า "นี่คือปุ่มที่ชื่อว่า Publish" แทนที่จะเป็นการคาดเดาจากรูปภาพ

ผมได้ทดสอบ qwen-code/open-computer-use บนเครื่อง Windows ของผม ผลลัพธ์ที่ได้นั้นชัดเจนมาก Agent สามารถตรวจพบแอปพลิเคชันที่กำลังรันอยู่ เช่น Chrome, Obsidian และ terminal มันสามารถระบุส่วนต่างๆ ของ Chrome ได้อย่างเฉพาะเจาะจง เช่น แถบที่อยู่และปุ่มรีเฟรช และสามารถหาพิกัดที่แม่นยำสำหรับการสั่งการได้

เรื่องนี้สำคัญมากสำหรับใครก็ตามที่ทำธุรกิจ งานจริงๆ นั้นมีความยุ่งเหยิง คุณต้องอัปโหลดไฟล์ กรอกฟอร์มบนเว็บ และจัดการกับหน้าต่างโต้ตอบของระบบ (system dialogs) การทำ Browser automation เพียงอย่างเดียวมักจะล้มเหลวเพราะ DOM selectors มักจะเปลี่ยนไป

AI stack ที่ใช้งานได้จริงควรมีลักษณะดังนี้:

สิ่งนี้ทำให้ AI เข้าใกล้การเป็นพนักงานในเครื่อง (local employee) ที่แท้จริงมากขึ้น

เทคโนโลยีนี้ยังไม่สมบูรณ์แบบ UIA อาจใช้ไม่ได้กับเกมหรือแอปที่มีอินเทอร์เฟซแบบวาดขึ้นเอง (custom-drawn interfaces) นอกจากนี้ยังมีเรื่องความเสี่ยงด้านความปลอดภัย คุณจึงต้องตั้งกฎเกณฑ์ (guardrails) ไว้ด้วย

ควรปฏิบัติตามกฎเหล่านี้เสมอสำหรับ AI agent:

อนาคตของ AI agent คือเรื่องของ "มือ" ที่ดีขึ้น ไม่ใช่แค่ "การใช้เหตุผล" ที่ดีขึ้นเท่านั้น Agent จะต้องสามารถอ่านสถานะของแอปพลิเคชัน ดำเนินการในส่วนที่มีความเสี่ยงต่ำ และหยุดทำงานหากงานนั้นเริ่มมีความเสี่ยงอันตราย

AI ยังไม่ได้เข้ามาควบคุม Windows ทั้งหมดในตอนนี้ แต่การทำ Desktop automation เพิ่งจะกลายเป็นเรื่องที่สมจริงขึ้นมาก

Source: https://dev.to/tenglongai2026/ai-can-now-control-windows-without-vision-models-14l6

Optional learning community: https://t.me/GyaanSetuAi