Microsoft Mirage: การแก้ปัญหาความจำเชิงพื้นที่ (Spatial Memory) ในวิดีโอ AI

โมเดลโลกวิดีโอ (Video world models) กำลังวิวัฒนาการจากการเป็นเพียงเครื่องมือสร้างคลิปวิดีโอแบบง่ายๆ ไปสู่การเป็นเครื่องจำลองสถานการณ์ (simulators) ที่ซับซ้อน แต่บ่อยครั้งที่โมเดลเหล่านี้มักประสบปัญหา "ภาวะความจำเสื่อมเชิงพื้นที่" (spatial amnesia) ล่าสุด Microsoft Research ได้เปิดตัว Mirage ซึ่งเป็นโมเดลโลกวิดีโอที่ก้าวล้ำ โดยสามารถรักษาความเข้าใจสภาพแวดล้อมแบบ 3 มิติที่คงทน ช่วยให้มั่นใจได้ว่าวัตถุและเลย์เอาต์ต่างๆ จะยังคงความสม่ำเสมอ แม้ในขณะที่มีการเคลื่อนกล้องที่ซับซ้อน

การก้าวข้ามคอขวดของหน่วยความจำแบบอิงพิกเซล (Pixel-Based Memory Bottleneck)

ระบบที่ล้ำสมัยที่สุดในปัจจุบัน เช่น Voyager, WonderWorld และ Spatia พยายามแก้ปัญหาความสม่ำเสมอเชิงพื้นที่โดยการใช้ 3D point clouds ที่ประกอบด้วยข้อมูลสี RGB แม้ว่าวิธีเหล่านี้จะมีประสิทธิภาพ แต่ก็สร้าง "คอขวดสองชั้น" (double bottleneck) กล่าวคือ ต้องใช้พลังการประมวลผลมหาศาลในการเรนเดอร์ point clouds และประสบปัญหาข้อมูลรั่วไหล (information leakage) ทุกครั้งที่มีการแปลงข้อมูลระหว่างพื้นที่พิกเซล (pixel space) และพื้นที่ฟีเจอร์ภายใน (internal feature space) ของโมเดล

Mirage นำเสนอการเปลี่ยนผ่านกระบวนทัศน์ (paradigm shift) โดยการใช้ Latent Spatial Memory แทนที่จะจัดเก็บจุดสีที่มองเห็นได้ Mirage จะจัดเก็บฟีเจอร์ของภาพภายในที่โมเดล diffusion ใช้งานอยู่แล้ว การแมปฟีเจอร์เหล่านี้เข้าสู่พื้นที่ 3 มิติโดยตรง ช่วยให้โมเดลสามารถฉายความจำไปยังมุมมองกล้องเป้าหมายและส่งต่อไปยังตัวสร้าง (generator) ได้ โดยไม่ต้องผ่านกระบวนการเรนเดอร์และเข้ารหัส (render-and-encode loop) ที่สิ้นเปลืองทรัพยากรเหมือนที่โมเดลรุ่นก่อนๆ เคยทำ

สถาปัตยกรรมทางเทคนิค: การต่อยอดจาก Wan2.2

นักวิจัยได้พัฒนา Mirage โดยต่อยอดจากโมเดลวิดีโอโอเพนซอร์สของ Alibaba อย่าง Wan2.2 และเพื่อให้สามารถรวมความตระหนักรู้เชิงพื้นที่แบบใหม่นี้เข้าไปได้ พวกเขาจึงได้ติดตั้งโมดูลเสริมเฉพาะทางและใช้ LoRA (Low-Rank Adaptation) adapters สำหรับการทำ fine-tuning

ระบบทำงานเป็นส่วนๆ (segments) โดยเริ่มจากการสร้าง latent cache จากเฟรมเริ่มต้น เพื่อให้มั่นใจว่าหน่วยความจำจะยังคงมีความเสถียร Mirage จึงใช้กลไกการกรองที่ซับซ้อน ก่อนที่จะเขียนข้อมูลลงใน cache ระบบจะตัดวัตถุที่เคลื่อนที่และท้องฟ้าออก เพื่อให้มั่นใจว่ามีเพียงโครงสร้างเรขาคณิต (geometry) ที่คงที่และเชื่อถือได้เท่านั้นที่ถูกจัดเก็บไว้ในหน่วยความจำระยะยาว วิธีนี้ช่วยป้องกันการเกิด "ghosting" หรือความบิดเบี้ยวทางเรขาคณิตที่เกิดจากองค์ประกอบที่มีการเคลื่อนไหว

การทดสอบประสิทธิภาพและความสามารถในการทำงาน

ประสิทธิภาพที่เพิ่มขึ้นของ Mirage นั้นโดดเด่นทั้งในด้านความแม่นยำและการจัดการทรัพยากร ในการทดสอบด้วย WorldScore benchmark พบว่า Mirage ทำผลงานได้ดีกว่า Spatia ซึ่งพึ่งพาหน่วยความจำแบบอิงสี และทำคะแนนแซงหน้าโมเดลสร้างวิดีโอทั่วไปอย่าง Wan2.1 และ CogVideoX อย่างมีนัยสำคัญ

ในการทดสอบแบบ "closed-loop" โดยใช้ ชุดข้อมูล RealEstate10K—ซึ่งกล้องจะเคลื่อนที่วนกลับมายังจุดเริ่มต้น—Mirage ได้แสดงให้เห็นถึงความสามารถที่เหนือกว่าในการรักษาความสม่ำเสมอของพื้นผิวและโครงสร้างเชิงพื้นที่ ที่สำคัญที่สุดคือ Mirage สามารถแก้ปัญหาด้านการขยายขนาด (scaling issues) ที่เป็นอุปสรรคต่อโมเดลอื่นๆ ได้:

  • ความเร็ว: ให้การสร้างที่ เร็วกว่าคู่แข่งที่ใช้พื้นฐานจากสีถึง 10.57 เท่า
  • ประสิทธิภาพการใช้หน่วยความจำ: ใช้ หน่วยความจำน้อยลงถึง 55 เท่า โดยการทำงานในความละเอียดแบบ latent ที่กะทัดรัดแทนที่จะเป็นขนาดพิกเซลเต็มรูปแบบ
  • ความเสถียรในการประมวลผล: ในขณะที่ความต้องการทรัพยากรของโมเดลคู่แข่งจะเพิ่มขึ้นตามจำนวนเฟรมใหม่ๆ แต่ต้นทุนการประมวลผลต่อเฟรมของ Mirage ยังคงที่เกือบจะคงเดิม

อนาคตของสภาพแวดล้อม AI ที่นำทางได้

แม้ว่า Mirage จะมีประสิทธิภาพสูงสำหรับพื้นที่ภายในอาคารแบบคงที่ แต่นักวิจัยได้ตั้งข้อสังเกตถึงข้อจำกัดในปัจจุบัน: เนื่องจากวัตถุที่เคลื่อนที่ถูกกรองออกเพื่อรักษาความสมบูรณ์ทางเรขาคณิต ฉากที่มีความวุ่นวายและมีเนื้อหาที่มีการเปลี่ยนแปลงสูงจึงได้รับการปรับแต่งมาน้อยกว่า การแก้ปัญหาการจัดเก็บเนื้อหาที่มีการเปลี่ยนแปลงยังคงเป็นพรมแดนถัดไปสำหรับทีมงาน

ในขณะที่อุตสาหกรรมกำลังเปลี่ยนผ่านจากการสร้างแบบคลิปเดียว (เช่น Google's Veo) ไปสู่สภาพแวดล้อมที่โต้ตอบและนำทางได้อย่างเต็มรูปแบบ (เช่น Google DeepMind's Genie) Mirage ได้มอบพิมพ์เขียวที่สำคัญว่า AI จะสามารถ "จดจำ" โลกที่มันกำลังจำลองอยู่ได้อย่างไร

สรุปประเด็นสำคัญ

  • Latent แทน Pixel: Mirage ก้าวข้ามคอขวดในการประมวลผลของ RGB point clouds โดยการจัดเก็บหน่วยความจำเชิงพื้นที่แบบ 3 มิติไว้ในพื้นที่ latent ภายในของโมเดลโดยตรง
  • การเพิ่มประสิทธิภาพอย่างมหาศาล: โมเดลนี้สามารถสร้างได้เร็วขึ้นถึง 10.57 เท่า และใช้หน่วยความจำน้อยลงถึง 55 เท่า เมื่อเทียบกับระบบหน่วยความจำแบบอิงสีแบบดั้งเดิม
  • ความสม่ำเสมอเชิงพื้นที่: ด้วยการกรองวัตถุที่มีการเคลื่อนไหวออกและมุ่งเน้นไปที่เรขาคณิตแบบคงที่ Mirage จึงสามารถรักษาความเสถียรของสภาพแวดล้อมในระหว่างเส้นทางการเคลื่อนที่ของกล้องที่ยาวและซับซ้อน รวมถึงการเคลื่อนที่แบบวนลูปปิดได้