Language Models สามารถมองเห็นได้
โมเดลข้อความ (Text models) มักจะมีปัญหาเรื่องการจัดวางเลย์เอาต์ทางสายตา พวกเขาสามารถเขียนคำได้ แต่ไม่เข้าใจว่าคำเหล่านั้นจะมีลักษณะอย่างไรบนหน้าจอ
งานวิจัยใหม่กำลังจะเปลี่ยนสิ่งนี้ ตอนนี้คุณสามารถเชื่อมต่อการควบคุมทางสายตา (visual controls) เข้ากับการสร้างข้อความได้ ซึ่งช่วยให้โมเดลสามารถมองเห็นได้ในขณะที่กำลังเขียน
หลักการทำงาน:
- โมเดลจะได้รับข้อมูลตอบกลับทางสายตา (visual feedback) ในระหว่างกระบวนการ
- โมเดลจะปรับข้อความเพื่อให้เข้ากับเลย์เอาต์ที่กำหนด
- โมเดลเชื่อมโยงความหมายทางภาษาเข้ากับการจัดวางเชิงพื้นที่ (spatial placement)
สิ่งนี้ช่วยปรับปรุงวิธีการที่ AI จัดการกับข้อมูลที่มีโครงสร้าง (structured data) และช่วยในเรื่องการออกแบบ UI รวมถึงการจัดรูปแบบเอกสาร
คุณไม่จำเป็นต้องแยกโมเดลข้อความออกจากเครื่องมือทางสายตาอีกต่อไป คุณสามารถใช้ระบบเดียวในการจัดการทั้งสองอย่างได้
แหล่งที่มา: https://dev.to/paperium/language-models-can-see-plugging-visual-controls-in-text-generation-aml
ชุมชนแห่งการเรียนรู้ (ไม่บังคับ): https://t.me/GyaanSetuAi