Microsoft Mirage: حل مشکل حافظه مکانی در ویدیوهای هوش مصنوعی
مدلهای دنیای ویدئویی در حال تبدیل شدن از مولدهای سادهی کلیپ به شبیهسازهای پیچیده هستند، اما اغلب از «فراموشی مکانی» (spatial amnesia) رنج میبرند. مایکروسافت ریسرچ از Mirage رونمایی کرده است؛ یک مدل دنیای ویدئویی پیشگام که درک سهبعدی پایداری از محیطها را حفظ میکند و تضمین میکند که اشیاء و چیدمانها حتی در طول مانورهای پیچیده دوربین، ثابت و سازگار باقی بمانند.
غلبه بر گلوگاه حافظه مبتنی بر پیکسل
سیستمهای پیشرفتهای مانند Voyager، WonderWorld و Spatia تلاش میکنند با استفاده از ابر نقاط سهبعدی متشکل از دادههای رنگی RGB، مشکل سازگاری مکانی را حل کنند. اگرچه این روشها مؤثر هستند، اما یک «گلوگاه دوگانه» ایجاد میکنند: آنها برای رندر کردن ابر نقاط به قدرت محاسباتی عظیمی نیاز دارند و هر بار که دادهها بین فضای پیکسل و فضای ویژگیهای داخلی مدل جابهجا میشوند، دچار نشت اطلاعات میگردند.
Mirage با بهرهگیری از Latent Spatial Memory (حافظه مکانی نهفته)، یک تغییر پارادایم را معرفی میکند. Mirage به جای ذخیره نقاط رنگی قابل مشاهده، ویژگیهای تصویری داخلی را که مدلهای انتشار (diffusion models) از قبل استفاده میکنند، ذخیره میکند. با نگاشت مستقیم این ویژگیها در فضای سهبعدی، مدل میتواند حافظه را روی نمای هدف دوربین بازتاب دهد و بدون نیاز به حلقه هزینهبر «رندر و کدگذاری» که در مدلهای پیشین لازم بود، آن را به مولد تحویل دهد.
معماری فنی: بنا شده بر پایه Wan2.2
محققان Mirage را با استفاده از مدل ویدئویی متنباز Alibaba یعنی Wan2.2 توسعه دادهاند. آنها برای ادغام این آگاهی مکانی جدید، یک ماژول افزونهی تخصصی را پیادهسازی کرده و از آداپتورهای LoRA (Low-Rank Adaptation) برای تنظیم دقیق (fine-tuning) استفاده کردند.
این سیستم در بخشهایی عمل میکند و حافظه پنهان (latent cache) را از یک فریم اولیه مقداردهی میکند. برای اطمینان از پایداری حافظه، Mirage از یک مکانیزم فیلترینگ پیشرفته استفاده میکند. سیستم پیش از نوشتن در حافظه پنهان، اشیاء متحرک و آسمان را حذف میکند تا اطمینان حاصل شود که تنها هندسههای ایستا و قابل اعتماد در حافظه بلندمدت ذخیره میشوند. این کار از بروز پدیدهی «شبحوارگی» (ghosting) یا اعوجاجهای هندسی ناشی از عناصر پویا جلوگیری میکند.
ارزیابی کارایی و عملکرد
بهبود عملکرد Mirage هم در زمینه دقت و هم در مدیریت منابع بسیار چشمگیر است. در بنچمارک WorldScore، Mirage از Spatia که بر حافظه مبتنی بر رنگ تکیه دارد، عملکرد بهتری داشت و به طور قابل توجهی از مولدهای ویدئویی عمومی مانند Wan2.1 و CogVideoX پیشی گرفت.
In "closed-loop" tests using the RealEstate10K dataset—where a camera circles back to its starting point—Mirage demonstrated superior ability to maintain surface consistency and spatial structure. Most notably, Mirage solves the scaling issues that plague other models:
- Speed: It offers up to 10.57x faster generation than color-based rivals.
- Memory Efficiency: It uses up to 55x less memory by operating in a compact latent resolution rather than full-pixel size.
- Compute Stability: While rival models' resource demands grow with each new frame, Mirage's compute cost per frame remains nearly flat.
The Future of Navigable AI Environments
While Mirage is highly effective for static interiors, the researchers noted a current limitation: because moving objects are filtered out to maintain geometric integrity, busy scenes with high dynamic content are less optimized. Solving the storage of dynamic content remains the next frontier for the team.
As the industry moves from single-clip generation (like Google's Veo) toward fully interactive, navigable environments (like Google DeepMind's Genie), Mirage provides a critical blueprint for how AI can "remember" the world it is simulating.
Key Takeaways
- Latent over Pixel: Mirage bypasses the computational bottleneck of RGB point clouds by storing 3D spatial memory directly in the model's internal latent space.
- Massive Efficiency Gains: The model achieves up to 10.57x faster generation and uses 55x less memory compared to traditional color-based memory systems.
- Spatial Consistency: By filtering out dynamic objects and focusing on static geometry, Mirage maintains stable environments during long, complex camera paths and closed-loop movements.