Microsoft Mirage: AI ਵੀਡੀਓ ਵਿੱਚ ਸਪੇਸ਼ਲ ਮੈਮੋਰੀ (Spatial Memory) ਦੀ ਸਮੱਸਿਆ ਦਾ ਹੱਲ
ਵੀਡੀਓ ਵਰਲਡ ਮਾਡਲ ਸਧਾਰਨ ਕਲਿੱਪ ਜਨਰੇਟਰਾਂ ਤੋਂ ਉੱਨਤ ਸਿਮੂਲੇਟਰਾਂ (simulators) ਵਿੱਚ ਬਦਲ ਰਹੇ ਹਨ, ਫਿਰ ਵੀ ਉਹ ਅਕਸਰ "ਸਪੇਸ਼ਲ ਅਮਨੀਸ਼ੀਆ" (spatial amnesia) ਦਾ ਸ਼ਿਕਾਰ ਹੁੰਦੇ ਹਨ। Microsoft Research ਨੇ Mirage ਨੂੰ ਪੇਸ਼ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ ਇੱਕ ਕ੍ਰਾਂਤੀਕਾਰੀ ਵੀਡੀਓ ਵਰਲਡ ਮਾਡਲ ਹੈ ਜੋ ਵਾਤਾਵਰਣ ਦੀ ਸਥਾਈ 3D ਸਮਝ ਬਣਾਈ ਰੱਖਦਾ ਹੈ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਕੈਮਰੇ ਦੇ ਗੁੰਝਲਦਾਰ ਮੈਨੂਵਰਾਂ ਦੌਰਾਨ ਵੀ ਵਸਤੂਆਂ ਅਤੇ ਲੇਆਉਟ (layouts) ਇਕਸਾਰ ਰਹਿਣ।
ਪਿਕਸਲ-ਅਧਾਰਤ ਮੈਮੋਰੀ ਬੋਟਲਨੇਕ (Bottleneck) ਨੂੰ ਪਾਰ ਕਰਨਾ
Voyager, WonderWorld, ਅਤੇ Spatia ਵਰਗੇ ਮੌਜੂਦਾ ਅਤਿ-ਆਧੁਨਿਕ ਸਿਸਟਮ RGB ਰੰਗ ਡੇਟਾ ਤੋਂ ਬਣੇ 3D ਪੁਆਇੰਟ ਕਲਾਉਡਸ (point clouds) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਪੇਸ਼ਲ ਇਕਸਾਰਤਾ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਨ। ਹਾਲਾਂਕਿ ਇਹ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ, ਪਰ ਇਹ ਤਰੀਕੇ ਇੱਕ "ਡਬਲ ਬੋਟਲਨੇਕ" ਪੈਦਾ ਕਰਦੇ ਹਨ: ਪੁਆਇੰਟ ਕਲਾਉਡਸ ਨੂੰ ਰੈਂਡਰ ਕਰਨ ਲਈ ਉਹਨਾਂ ਨੂੰ ਭਾਰੀ ਕੰਪਿਊਟੇਸ਼ਨਲ ਪਾਵਰ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਅਤੇ ਹਰ ਵਾਰ ਜਦੋਂ ਡੇਟਾ ਪਿਕਸਲ ਸਪੇਸ ਅਤੇ ਮਾਡਲ ਦੇ ਅੰਦਰੂਨੀ ਫੀਚਰ ਸਪੇਸ ਦੇ ਵਿਚਕਾਰ ਤਬਦੀਲ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਜਾਣਕਾਰੀ ਦੇ ਲੀਕੇਜ (information leakage) ਦੀ ਸਮੱਸਿਆ ਆਉਂਦੀ ਹੈ।
Mirage Latent Spatial Memory ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਨਵਾਂ ਪੈਰਾਡਾਈਮ (paradigm shift) ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਦਿਖਾਈ ਦੇਣ ਵਾਲੇ ਰੰਗਦਾਰ ਪੁਆਇੰਟਾਂ ਨੂੰ ਸਟੋਰ ਕਰਨ ਦੀ ਬਜਾਏ, Mirage ਉਹ ਅੰਦਰੂਨੀ ਚਿੱਤਰ ਫੀਚਰਸ (image features) ਸਟੋਰ ਕਰਦਾ ਹੈ ਜੋ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਵਰਤਦੇ ਹਨ। ਇਹਨਾਂ ਫੀਚਰਸ ਨੂੰ ਸਿੱਧਾ 3D ਸਪੇਸ ਵਿੱਚ ਮੈਪ ਕਰਕੇ, ਮਾਡਲ ਮੈਮੋਰੀ ਨੂੰ ਟਾਰਗੇਟ ਕੈਮਰਾ ਵਿਊ 'ਤੇ ਪ੍ਰੋਜੈਕਟ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਜਨਰੇਟਰ ਨੂੰ ਦੇ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਪਿਛਲੇ ਮਾਡਲਾਂ ਵਾਂਗ ਮਹਿੰਗੇ ਰੈਂਡਰ-ਅੰਡ-ਇਨਕੋਡ ਲੂਪ ਦੀ ਲੋੜ ਨਹੀਂ ਰਹਿੰਦੀ।
ਤਕਨੀਕੀ ਆਰਕੀਟੈਕਚਰ: Wan2.2 'ਤੇ ਅਧਾਰਤ
ਖੋਜਕਰਤਾਵਾਂ ਨੇ Alibaba ਦੇ ਓਪਨ-ਸੋਰਸ ਵੀਡੀਓ ਮਾਡਲ, Wan2.2 'ਤੇ ਅਧਾਰਤ ਕਰਕੇ Mirage ਵਿਕਸਿਤ ਕੀਤਾ ਹੈ। ਇਸ ਨਵੀਂ ਸਪੇਸ਼ਲ ਜਾਗਰੂਕਤਾ ਨੂੰ ਜੋੜਨ ਲਈ, ਉਹਨਾਂ ਨੇ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਐਡ-ਆਨ ਮੋਡਿਊਲ ਲਾਗੂ ਕੀਤਾ ਅਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਲਈ LoRA (Low-Rank Adaptation) adapters ਦੀ ਵਰਤੋਂ ਕੀਤੀ।
ਇਹ ਸਿਸਟਮ ਸੈਗਮੈਂਟਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ, ਜੋ ਸ਼ੁਰੂਆਤੀ ਫਰੇਮ ਤੋਂ ਲੇਟੈਂਟ ਕੈਸ਼ (latent cache) ਨੂੰ ਸੀਡ ਕਰਦਾ ਹੈ। ਮੈਮੋਰੀ ਨੂੰ ਸਥਿਰ ਰੱਖਣ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ, Mirage ਇੱਕ ਉੱਨਤ ਫਿਲਟਰਿੰਗ ਮਕੈਨਿਜ਼ਮ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਕੈਸ਼ ਵਿੱਚ ਲਿਖਣ ਤੋਂ ਪਹਿਲਾਂ, ਸਿਸਟਮ ਚਲਦੀਆਂ ਵਸਤੂਆਂ ਅਤੇ ਅਸਮਾਨ ਨੂੰ ਹਟਾ ਦਿੰਦਾ ਹੈ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਲੰਬੇ ਸਮੇਂ ਦੀ ਮੈਮੋਰੀ ਵਿੱਚ ਸਿਰਫ਼ ਸਥਿਰ ਅਤੇ ਭਰੋਸੇਯੋਗ ਜਿਓਮੈਟਰੀ ਹੀ ਸਟੋਰ ਕੀਤੀ ਜਾਵੇ। ਇਹ ਡਾਇਨਾਮਿਕ ਤੱਤਾਂ ਦੁਆਰਾ ਪੈਦਾ ਹੋਣ ਵਾਲੇ "ਗੋਸਟਿੰਗ" (ghosting) ਜਾਂ ਜਿਓਮੈਟ੍ਰਿਕ ਵਿਗਾੜ ਨੂੰ ਰੋਕਦਾ ਹੈ।
ਕੁਸ਼ਲਤਾ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਬੈਂਚਮਾਰਕਿੰਗ
Mirage ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰ ਸ਼ੁੱਧਤਾ ਅਤੇ ਸਰੋਤ ਪ੍ਰਬੰਧਨ (resource management) ਦੋਵਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਹਨ। WorldScore benchmark 'ਤੇ, Mirage ਨੇ Spatia ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ, ਜੋ ਰੰਗ-ਅਧਾਰਤ ਮੈਮੋਰੀ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਅਤੇ Wan2.1 ਅਤੇ CogVideoX ਵਰਗੇ ਆਮ ਵੀਡੀਓ ਜਨਰੇਟਰਾਂ ਤੋਂ ਕਾਫ਼ੀ ਅੱਗੇ ਨਿਕਲ ਗਿਆ।
In "closed-loop" tests using the RealEstate10K dataset—where a camera circles back to its starting point—Mirage demonstrated superior ability to maintain surface consistency and spatial structure. Most notably, Mirage solves the scaling issues that plague other models:
- Speed: It offers up to 10.57x faster generation than color-based rivals.
- Memory Efficiency: It uses up to 55x less memory by operating in a compact latent resolution rather than full-pixel size.
- Compute Stability: While rival models' resource demands grow with each new frame, Mirage's compute cost per frame remains nearly flat.
The Future of Navigable AI Environments
While Mirage is highly effective for static interiors, the researchers noted a current limitation: because moving objects are filtered out to maintain geometric integrity, busy scenes with high dynamic content are less optimized. Solving the storage of dynamic content remains the next frontier for the team.
As the industry moves from single-clip generation (like Google's Veo) toward fully interactive, navigable environments (like Google DeepMind's Genie), Mirage provides a critical blueprint for how AI can "remember" the world it is simulating.
Key Takeaways
- Latent over Pixel: Mirage bypasses the computational bottleneck of RGB point clouds by storing 3D spatial memory directly in the model's internal latent space.
- Massive Efficiency Gains: The model achieves up to 10.57x faster generation and uses 55x less memory compared to traditional color-based memory systems.
- Spatial Consistency: By filtering out dynamic objects and focusing on static geometry, Mirage maintains stable environments during long, complex camera paths and closed-loop movements.