Microsoft Mirage: вирішення проблеми просторової пам'яті у відео з ШІ

Світові моделі відео еволюціонують від простих генераторів кліпів до складних симуляторів, проте вони часто страждають на «просторову амнезію». Microsoft Research представила Mirage — проривну модель світу відео, яка підтримує постійне 3D-розуміння середовища, гарантуючи, що об'єкти та планування залишаються незмінними навіть під час складних маневрів камери.

Подолання вузького місця пам'яті на основі пікселів

Сучасні передові системи, такі як Voyager, WonderWorld та Spatia, намагаються вирішити проблему просторової узгодженості за допомогою 3D-хмар точок, що складаються з даних кольору RGB. Хоча ці методи є ефективними, вони створюють «подвійне вузьке місце»: вони потребують величезних обчислювальних потужностей для рендерингу хмар точок і страждають від витоку інформації щоразу, коли дані перекладаються з піксельного простору у внутрішній простір ознак моделі.

Mirage впроваджує зміну парадигми, використовуючи латентну просторову пам'ять (Latent Spatial Memory). Замість зберігання видимих кольорових точок, Mirage зберігає внутрішні ознаки зображення, які вже використовуються дифузійними моделями. Шляхом проектування цих ознак безпосередньо у 3D-простір, модель може проектувати пам'ять на цільовий вигляд камери та передавати її генератору без витратного циклу «рендеринг-кодування», необхідного її попередникам.

Технічна архітектура: на базі Wan2.2

Дослідники розробили Mirage на основі відеомоделі з відкритим вихідним кодом від Alibaba — Wan2.2. Щоб інтегрувати це нове просторове сприйняття, вони впровадили спеціалізований додатковий модуль і використали адаптери LoRA (Low-Rank Adaptation) для тонкого налаштування.

Система працює сегментами, заповнюючи латентний кеш із початкового кадру. Щоб забезпечити стабільність пам'яті, Mirage використовує складний механізм фільтрації. Перед записом у кеш система видаляє рухомі об'єкти та небо, гарантуючи, що в довгостроковій пам'яті зберігається лише статична, надійна геометрія. Це запобігає появі «привидів» (ghosting) або геометричних спотворень, спричинених динамічними елементами.

Тестування ефективності та продуктивності

Приріст продуктивності Mirage є значним як у точності, так і в управлінні ресурсами. У бенчмарку WorldScore Mirage перевершив Spatia, яка покладається на пам'ять на основі кольору, і значно випередив загальні генератори відео, такі як Wan2.1 та CogVideoX.

In "closed-loop" tests using the RealEstate10K dataset—where a camera circles back to its starting point—Mirage demonstrated superior ability to maintain surface consistency and spatial structure. Most notably, Mirage solves the scaling issues that plague other models:

  • Speed: It offers up to 10.57x faster generation than color-based rivals.
  • Memory Efficiency: It uses up to 55x less memory by operating in a compact latent resolution rather than full-pixel size.
  • Compute Stability: While rival models' resource demands grow with each new frame, Mirage's compute cost per frame remains nearly flat.

The Future of Navigable AI Environments

While Mirage is highly effective for static interiors, the researchers noted a current limitation: because moving objects are filtered out to maintain geometric integrity, busy scenes with high dynamic content are less optimized. Solving the storage of dynamic content remains the next frontier for the team.

As the industry moves from single-clip generation (like Google's Veo) toward fully interactive, navigable environments (like Google DeepMind's Genie), Mirage provides a critical blueprint for how AI can "remember" the world it is simulating.

Key Takeaways

  • Latent over Pixel: Mirage bypasses the computational bottleneck of RGB point clouds by storing 3D spatial memory directly in the model's internal latent space.
  • Massive Efficiency Gains: The model achieves up to 10.57x faster generation and uses 55x less memory compared to traditional color-based memory systems.
  • Spatial Consistency: By filtering out dynamic objects and focusing on static geometry, Mirage maintains stable environments during long, complex camera paths and closed-loop movements.