Microsoft Mirage: Rozwiązywanie problemu pamięci przestrzennej w wideo AI
Modele świata wideo ewoluują od prostych generatorów klipów do zaawansowanych symulatorów, jednak często cierpią na „amnezję przestrzenną”. Microsoft Research zaprezentował Mirage – przełomowy model świata wideo, który utrzymuje trwałe, trójwymiarowe zrozumienie środowiska, zapewniając spójność obiektów i układów nawet podczas złożonych manewrów kamery.
Przełamywanie wąskiego gardła pamięci opartej na pikselach
Obecne, najnowocześniejsze systemy, takie jak Voyager, WonderWorld i Spatia, próbują rozwiązać problem spójności przestrzennej poprzez wykorzystanie trójwymiarowych chmur punktów złożonych z danych kolorów RGB. Choć są skuteczne, metody te tworzą „podwójne wąskie gardło”: wymagają ogromnej mocy obliczeniowej do renderowania chmur punktów i cierpią na wycieki informacji za każdym razem, gdy dane są przekształcane między przestrzenią pikseli a wewnętrzną przestrzenią cech modelu.
Mirage wprowadza zmianę paradygmatu, wykorzystując Latent Spatial Memory. Zamiast przechowywać widoczne punkty kolorów, Mirage przechowuje wewnętrzne cechy obrazu, których modele dyfuzyjne już używają. Mapując te cechy bezpośrednio w przestrzeni 3D, model może rzutować pamięć na docelowy widok kamery i przekazać ją generatorowi bez kosztownej pętli renderowania i kodowania, wymaganej przez jego poprzedników.
Architektura techniczna: Oparta na Wan2.2
Badacze opracowali Mirage, opierając się na modelu wideo open-source od Alibaba – Wan2.2. Aby zintegrować tę nową świadomość przestrzenną, zaimplementowali specjalistyczny moduł dodatkowy i wykorzystali adaptery LoRA (Low-Rank Adaptation) do dostrajania.
System działa w segmentach, inicjując pamięć podręczną (latent cache) z pierwszej klatki. Aby zapewnić stabilność pamięci, Mirage stosuje zaawansowany mechanizm filtrowania. Przed zapisem w pamięci podręcznej system usuwa poruszające się obiekty oraz niebo, zapewniając, że w pamięci długotrwałej przechowywana jest wyłącznie statyczna, niezawodna geometria. Zapobiega to efektowi „duchów” (ghosting) lub zniekształceniom geometrycznym spowodowanym przez elementy dynamiczne.
Benchmarki wydajności i efektywności
Zyski wydajnościowe Mirage są znaczące zarówno w zakresie dokładności, jak i zarządzania zasobami. W teście WorldScore benchmark, Mirage przewyższył Spatię, która opiera się na pamięci opartej na kolorach, oraz znacząco wyprzedził ogólne generatory wideo, takie jak Wan2.1 i CogVideoX.
In "closed-loop" tests using the RealEstate10K dataset—where a camera circles back to its starting point—Mirage demonstrated superior ability to maintain surface consistency and spatial structure. Most notably, Mirage solves the scaling issues that plague other models:
- Speed: It offers up to 10.57x faster generation than color-based rivals.
- Memory Efficiency: It uses up to 55x less memory by operating in a compact latent resolution rather than full-pixel size.
- Compute Stability: While rival models' resource demands grow with each new frame, Mirage's compute cost per frame remains nearly flat.
The Future of Navigable AI Environments
While Mirage is highly effective for static interiors, the researchers noted a current limitation: because moving objects are filtered out to maintain geometric integrity, busy scenes with high dynamic content are less optimized. Solving the storage of dynamic content remains the next frontier for the team.
As the industry moves from single-clip generation (like Google's Veo) toward fully interactive, navigable environments (like Google DeepMind's Genie), Mirage provides a critical blueprint for how AI can "remember" the world it is simulating.
Key Takeaways
- Latent over Pixel: Mirage bypasses the computational bottleneck of RGB point clouds by storing 3D spatial memory directly in the model's internal latent space.
- Massive Efficiency Gains: The model achieves up to 10.57x faster generation and uses 55x less memory compared to traditional color-based memory systems.
- Spatial Consistency: By filtering out dynamic objects and focusing on static geometry, Mirage maintains stable environments during long, complex camera paths and closed-loop movements.