Microsoft Mirage: حل مشكلة الذاكرة المكانية في فيديو الذكاء الاصطناعي
تتطور نماذج عالم الفيديو من مجرد مولدات مقاطع بسيطة إلى محاكيات متطورة، ومع ذلك، فهي غالباً ما تعاني من "فقدان الذاكرة المكانية". وقد كشفت Microsoft Research عن Mirage، وهو نموذج عالم فيديو ثوري يحافظ على فهم ثلاثي الأبعاد مستمر للبيئات، مما يضمن بقاء الأشياء والتخطيطات متسقة حتى أثناء مناورات الكاميرا المعقدة.
التغلب على عنق الزجاجة في الذاكرة القائمة على البكسل
تحاول الأنظمة الرائدة الحالية مثل Voyager وWonderWorld وSpatia حل مشكلة الاتساق المكاني باستخدام سحب النقاط ثلاثية الأبعاد (3D point clouds) المكونة من بيانات ألوان RGB. ورغم فعاليتها، إلا أن هذه الأساليب تخلق "عنق زجاجة مزدوج": فهي تتطلب قوة حوسبة هائلة لمعالجة سحب النقاط، وتعاني من تسرب المعلومات في كل مرة يتم فيها نقل البيانات بين مساحة البكسل ومساحة الميزات الداخلية للنموذج.
يقدم Mirage تحولاً جذرياً من خلال استخدام الذاكرة المكانية الكامنة (Latent Spatial Memory). فبدلاً من تخزين نقاط الألوان المرئية، يقوم Mirage بتخزين ميزات الصورة الداخلية التي تستخدمها نماذج الانتشار (diffusion models) بالفعل. ومن خلال رسم خرائط هذه الميزات مباشرة في الفضاء ثلاثي الأبعاد، يمكن للنموذج إسقاط الذاكرة على عرض كاميرا مستهدف وتسليمها إلى المولد دون الحاجة إلى حلقة "المعالجة والترميز" (render-and-encode) المكلفة التي كانت تتطلبها النماذج السابقة.
البنية التقنية: البناء على Wan2.2
طور الباحثون Mirage من خلال البناء على نموذج الفيديو مفتوح المصدر من Alibaba، وهو Wan2.2. ولدمج هذا الوعي المكاني الجديد، قاموا بتنفيذ وحدة إضافية متخصصة واستخدموا محولات LoRA (Low-Rank Adaptation) للضبط الدقيق.
يعمل النظام في أجزاء، حيث يتم تلقيم الذاكرة المخبئية الكامنة (latent cache) من إطار أولي. ولضمان استقرار الذاكرة، يستخدم Mirage آلية تصفية متطورة؛ فقبل الكتابة في الذاكرة المخبئية، يقوم النظام باستبعاد الأجسام المتحركة والسماء، مما يضمن تخزين الهندسة الساكنة والموثوقة فقط في الذاكرة طويلة المدى. وهذا يمنع حدوث "الظلال الشبحية" (ghosting) أو التشوهات الهندسية الناتجة عن العناصر الديناميكية.
قياس الكفاءة والأداء
تعد مكاسب الأداء في Mirage كبيرة سواء من حيث الدقة أو إدارة الموارد. ففي اختبار WorldScore benchmark، تفوق Mirage على Spatia، التي تعتمد على الذاكرة القائمة على الألوان، وتجاوز بشكل كبير مولدات الفيديو العامة مثل Wan2.1 وCogVideoX.
في اختبارات "الحلقة المغلقة" (closed-loop) باستخدام مجموعة بيانات RealEstate10K — حيث تعود الكاميرا إلى نقطة البداية — أظهر Mirage قدرة فائقة على الحفاظ على اتساق الأسطح والبنية المكانية. والأهم من ذلك، أن Mirage يحل مشكلات التوسع التي تعاني منها النماذج الأخرى:
- السرعة: يوفر توليداً أسرع بما يصل إلى 10.57 ضعفاً مقارنة بالمنافسين القائمين على الألوان.
- كفاءة الذاكرة: يستخدم ذاكرة أقل بما يصل إلى 55 ضعفاً من خلال العمل بدقة كامنة (latent resolution) مدمجة بدلاً من حجم البكسل الكامل.
- استقرار الحوسبة: بينما تزداد متطلبات الموارد للنماذج المنافسة مع كل إطار جديد، تظل تكلفة الحوسبة لكل إطار في Mirage ثابتة تقريباً.
مستقبل بيئات الذكاء الاصطناعي القابلة للتنقل
بينما يعد Mirage فعالاً للغاية في التصميمات الداخلية الثابتة، أشار الباحثون إلى وجود قيد حالي: نظرًا لاستبعاد الأجسام المتحركة للحفاظ على السلامة الهندسية، فإن المشاهد المزدحمة ذات المحتوى الديناميكي العالي تكون أقل تحسيناً. ويظل حل مشكلة تخزين المحتوى الديناميكي هو التحدي القادم للفريق.
ومع انتقال الصناعة من توليد مقطع فيديو واحد (مثل Google's Veo) نحو بيئات تفاعلية وقابلة للتنقل بالكامل (مثل Google DeepMind's Genie)، يوفر Mirage مخططاً أساسياً لكيفية قدرة الذكاء الاصطناعي على "تذكر" العالم الذي يقوم بمحاكاته.
النقاط الرئيسية المستفادة
- التمثيل الكامن بدلاً من البكسل: يتجاوز Mirage عنق الزجاجة الحسابي لسحب النقاط (point clouds) من نوع RGB من خلال تخزين الذاكرة المكانية ثلاثية الأبعاد مباشرة في الفضاء الكامن الداخلي للنموذج.
- مكاسب هائلة في الكفاءة: يحقق النموذج توليداً أسرع بما يصل إلى 10.57 ضعفاً ويستخدم ذاكرة أقل بـ 55 ضعفاً مقارنة بأنظمة الذاكرة التقليدية القائمة على الألوان.
- الاتساق المكاني: من خلال تصفية الأجسام الديناميكية والتركيز على الهندسة الثابتة، يحافظ Mirage على بيئات مستقرة أثناء مسارات الكاميرا الطويلة والمعقدة وحركات الحلقة المغلقة.