مایکروسافت میراج: حل مشکل حافظه مکانی در ویدیوهای هوش مصنوعی

Translated for your language. Read the original.

AI-assisted draft.

In this article

Microsoft Mirage: حل مشکل حافظه مکانی در ویدیوهای هوش مصنوعی

مدل‌های دنیای ویدئویی در حال تبدیل شدن از مولدهای ساده‌ی کلیپ به شبیه‌سازهای پیچیده هستند، اما اغلب از «فراموشی مکانی» (spatial amnesia) رنج می‌برند. مایکروسافت ریسرچ از Mirage رونمایی کرده است؛ یک مدل دنیای ویدئویی پیشگام که درک سه‌بعدی پایداری از محیط‌ها را حفظ می‌کند و تضمین می‌کند که اشیاء و چیدمان‌ها حتی در طول مانورهای پیچیده دوربین، ثابت و سازگار باقی بمانند.

غلبه بر گلوگاه حافظه مبتنی بر پیکسل

سیستم‌های پیشرفته‌ای مانند Voyager، WonderWorld و Spatia تلاش می‌کنند با استفاده از ابر نقاط سه‌بعدی متشکل از داده‌های رنگی RGB، مشکل سازگاری مکانی را حل کنند. اگرچه این روش‌ها مؤثر هستند، اما یک «گلوگاه دوگانه» ایجاد می‌کنند: آن‌ها برای رندر کردن ابر نقاط به قدرت محاسباتی عظیمی نیاز دارند و هر بار که داده‌ها بین فضای پیکسل و فضای ویژگی‌های داخلی مدل جابه‌جا می‌شوند، دچار نشت اطلاعات می‌گردند.

Mirage با بهره‌گیری از Latent Spatial Memory (حافظه مکانی نهفته)، یک تغییر پارادایم را معرفی می‌کند. Mirage به جای ذخیره نقاط رنگی قابل مشاهده، ویژگی‌های تصویری داخلی را که مدل‌های انتشار (diffusion models) از قبل استفاده می‌کنند، ذخیره می‌کند. با نگاشت مستقیم این ویژگی‌ها در فضای سه‌بعدی، مدل می‌تواند حافظه را روی نمای هدف دوربین بازتاب دهد و بدون نیاز به حلقه هزینه‌بر «رندر و کدگذاری» که در مدل‌های پیشین لازم بود، آن را به مولد تحویل دهد.

معماری فنی: بنا شده بر پایه Wan2.2

محققان Mirage را با استفاده از مدل ویدئویی متن‌باز Alibaba یعنی Wan2.2 توسعه داده‌اند. آن‌ها برای ادغام این آگاهی مکانی جدید، یک ماژول افزونه‌ی تخصصی را پیاده‌سازی کرده و از آداپتورهای LoRA (Low-Rank Adaptation) برای تنظیم دقیق (fine-tuning) استفاده کردند.

این سیستم در بخش‌هایی عمل می‌کند و حافظه پنهان (latent cache) را از یک فریم اولیه مقداردهی می‌کند. برای اطمینان از پایداری حافظه، Mirage از یک مکانیزم فیلترینگ پیشرفته استفاده می‌کند. سیستم پیش از نوشتن در حافظه پنهان، اشیاء متحرک و آسمان را حذف می‌کند تا اطمینان حاصل شود که تنها هندسه‌های ایستا و قابل اعتماد در حافظه بلندمدت ذخیره می‌شوند. این کار از بروز پدیده‌ی «شبح‌وارگی» (ghosting) یا اعوجاج‌های هندسی ناشی از عناصر پویا جلوگیری می‌کند.

ارزیابی کارایی و عملکرد

بهبود عملکرد Mirage هم در زمینه دقت و هم در مدیریت منابع بسیار چشمگیر است. در بنچمارک WorldScore، Mirage از Spatia که بر حافظه مبتنی بر رنگ تکیه دارد، عملکرد بهتری داشت و به طور قابل توجهی از مولدهای ویدئویی عمومی مانند Wan2.1 و CogVideoX پیشی گرفت.

In "closed-loop" tests using the RealEstate10K dataset—where a camera circles back to its starting point—Mirage demonstrated superior ability to maintain surface consistency and spatial structure. Most notably, Mirage solves the scaling issues that plague other models:

Speed: It offers up to 10.57x faster generation than color-based rivals.
Memory Efficiency: It uses up to 55x less memory by operating in a compact latent resolution rather than full-pixel size.
Compute Stability: While rival models' resource demands grow with each new frame, Mirage's compute cost per frame remains nearly flat.

The Future of Navigable AI Environments

While Mirage is highly effective for static interiors, the researchers noted a current limitation: because moving objects are filtered out to maintain geometric integrity, busy scenes with high dynamic content are less optimized. Solving the storage of dynamic content remains the next frontier for the team.

As the industry moves from single-clip generation (like Google's Veo) toward fully interactive, navigable environments (like Google DeepMind's Genie), Mirage provides a critical blueprint for how AI can "remember" the world it is simulating.

Key Takeaways

Latent over Pixel: Mirage bypasses the computational bottleneck of RGB point clouds by storing 3D spatial memory directly in the model's internal latent space.
Massive Efficiency Gains: The model achieves up to 10.57x faster generation and uses 55x less memory compared to traditional color-based memory systems.
Spatial Consistency: By filtering out dynamic objects and focusing on static geometry, Mirage maintains stable environments during long, complex camera paths and closed-loop movements.