Microsoft Mirage: Solving the Spatial Memory Problem in AI Video

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 ವಾರಗಳ ಹಿಂದೆ3min read

In this article

Microsoft Mirage: AI ವೀಡಿಯೊಗಳಲ್ಲಿನ ಸ್ಪೇಷಿಯಲ್ ಮೆಮೊರಿ (Spatial Memory) ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸುವುದು

ವೀಡಿಯೊ ವರ್ಲ್ಡ್ ಮಾಡೆಲ್‌ಗಳು (Video world models) ಸರಳ ಕ್ಲಿಪ್ ಜನರೇಟರ್‌ಗಳಿಂದ ಅತ್ಯಾಧುನಿಕ ಸಿಮ್ಯುಲೇಟರ್‌ಗಳಾಗಿ ವಿಕಸನಗೊಳ್ಳುತ್ತಿವೆ, ಆದರೂ ಅವುಗಳು ಹೆಚ್ಚಾಗಿ "ಸ್ಪೇಷಿಯಲ್ ಅಮ್ನೀಸಿಯಾ" (spatial amnesia - ಸ್ಥಳೀಯ ಸ್ಮರಣಾಶಕ್ತಿ ಕೊರತೆ) ಸಮಸ್ಯೆಯನ್ನು ಎದುರಿಸುತ್ತವೆ. Microsoft Research ತನ್ನ Mirage ಎಂಬ ಕ್ರಾಂತಿಕಾರಿ ವೀಡಿಯೊ ವರ್ಲ್ಡ್ ಮಾಡೆಲ್ ಅನ್ನು ಅನಾವರಣಗೊಳಿಸಿದೆ. ಇದು ಪರಿಸರಗಳ ನಿರಂತರ 3D ತಿಳುವಳಿಕೆಯನ್ನು ಕಾಯ್ದುಕೊಳ್ಳುತ್ತದೆ, ಇದರಿಂದ ಸಂಕೀರ್ಣವಾದ ಕ್ಯಾಮೆರಾ ಚಲನೆಗಳ ಸಂದರ್ಭದಲ್ಲೂ ವಸ್ತುಗಳು ಮತ್ತು ವಿನ್ಯಾಸಗಳು ಸ್ಥಿರವಾಗಿರುತ್ತವೆ.

ಪಿಕ್ಸೆಲ್ ಆಧಾರಿತ ಮೆಮೊರಿ ಬಾಟಲ್ನೆಕ್ ಅನ್ನು ಮೀರಿ ನಿಲ್ಲುವುದು

Voyager, WonderWorld ಮತ್ತು Spatia ನಂತಹ ಪ್ರಸ್ತುತ ಅತ್ಯಾಧುನಿಕ ವ್ಯವಸ್ಥೆಗಳು RGB ಬಣ್ಣದ ಡೇಟಾದಿಂದ ಮಾಡಲ್ಪಟ್ಟ 3D ಪಾಯಿಂಟ್ ಕ್ಲೌಡ್‌ಗಳನ್ನು (point clouds) ಬಳಸುವ ಮೂಲಕ ಸ್ಪೇಷಿಯಲ್ ಕನ್ಸಿಸ್ಟೆನ್ಸಿಯನ್ನು (spatial consistency) ಪರಿಹರಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತವೆ. ಇವು ಪರಿಣಾಮಕಾರಿಯಾಗಿದ್ದರೂ, ಈ ವಿಧಾನಗಳು "ಡಬಲ್ ಬಾಟಲ್ನೆಕ್" ಅನ್ನು ಸೃಷ್ಟಿಸುತ್ತವೆ: ಪಾಯಿಂಟ್ ಕ್ಲೌಡ್‌ಗಳನ್ನು ರೆಂಡರ್ ಮಾಡಲು ಇವುಗಳಿಗೆ ಬೃಹತ್ ಕಂಪ್ಯೂಟೇಶನಲ್ ಶಕ್ತಿ ಬೇಕಾಗುತ್ತದೆ ಮತ್ತು ಪ್ರತಿ ಬಾರಿ ಡೇಟಾವನ್ನು ಪಿಕ್ಸೆಲ್ ಸ್ಪೇಸ್‌ನಿಂದ ಮಾಡೆಲ್‌ನ ಆಂತರಿಕ ಫೀಚರ್ ಸ್ಪೇಸ್‌ಗೆ ಪರಿವರ್ತಿಸುವಾಗ ಮಾಹಿತಿ ಸೋರಿಕೆಯಾಗುತ್ತದೆ (information leakage).

Mirage Latent Spatial Memory ಅನ್ನು ಬಳಸುವ ಮೂಲಕ ಒಂದು ಹೊಸ ಪರಿಕಲ್ಪನೆಯನ್ನು (paradigm shift) ಪರಿಚಯಿಸುತ್ತದೆ. ದೃಶ್ಯಮಾನ ಬಣ್ಣದ ಪಾಯಿಂಟ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸುವ ಬದಲಿಗೆ, Mirage ಡಿಫ್ಯೂಷನ್ ಮಾಡೆಲ್‌ಗಳು ಈಗಾಗಲೇ ಬಳಸುವ ಆಂತರಿಕ ಇಮೇಜ್ ಫೀಚರ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸುತ್ತದೆ. ಈ ಫೀಚರ್‌ಗಳನ್ನು ನೇರವಾಗಿ 3D ಸ್ಪೇಸ್‌ಗೆ ಮ್ಯಾಪ್ ಮಾಡುವ ಮೂಲಕ, ಮಾಡೆಲ್ ನೆನಪನ್ನು (memory) ಗುರಿ ಕ್ಯಾಮೆರಾ ವ್ಯೂ ಮೇಲೆ ಪ್ರಕ್ಷೇಪಿಸಬಲ್ಲದು ಮತ್ತು ತನ್ನ ಹಿಂದಿನ ಮಾದರಿಗಳಿಗೆ ಅಗತ್ಯವಿದ್ದ ದುಬಾರಿ 'ರೆಂಡರ್-ಅಂಡ್-ಎನ್‌ಕೋಡ್' ಲೂಪ್ ಇಲ್ಲದೆಯೇ ಅದನ್ನು ಜನರೇಟರ್‌ಗೆ ನೀಡಬಲ್ಲದು.

ತಾಂತ್ರಿಕ ಆರ್ಕಿಟೆಕ್ಚರ್: Wan2.2 ಮೇಲೆ ನಿರ್ಮಿಸಲಾಗಿದೆ

ಸಂಶೋಧಕರು Alibaba ನ ಓಪನ್-ಸೋರ್ಸ್ ವೀಡಿಯೊ ಮಾಡೆಲ್ ಆದ Wan2.2 ಅನ್ನು ಆಧರಿಸಿ Mirage ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ್ದಾರೆ. ಈ ಹೊಸ ಸ್ಪೇಷಿಯಲ್ ಅವೇರ್ನೆಸ್ ಅನ್ನು ಸಂಯೋಜಿಸಲು, ಅವರು ಒಂದು ವಿಶೇಷವಾದ ಆಡ್-ಆನ್ ಮಾಡ್ಯೂಲ್ ಅನ್ನು ಅಳವಡಿಸಿದ್ದಾರೆ ಮತ್ತು ಫೈನ್-ಟ್ಯೂನಿಂಗ್‌ಗಾಗಿ LoRA (Low-Rank Adaptation) ಅಡಾಪ್ಟರ್‌ಗಳನ್ನು ಬಳಸಿದ್ದಾರೆ.

ಈ ವ್ಯವಸ್ಥೆಯು ಸೆಗ್ಮೆಂಟ್‌ಗಳಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಆರಂಭಿಕ ಫ್ರೇಮ್‌ನಿಂದ ಲೇಟೆಂಟ್ ಕ್ಯಾಶ್ ಅನ್ನು ಸೀಡ್ ಮಾಡುತ್ತದೆ. ನೆನಪು ಸ್ಥಿರವಾಗಿರುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು, Mirage ಅತ್ಯಾಧುನಿಕ ಫಿಲ್ಟರಿಂಗ್ ಮೆಕ್ಯಾನಿಸಂ ಅನ್ನು ಬಳಸುತ್ತದೆ. ಕ್ಯಾಶ್‌ಗೆ ಬರೆಯುವ ಮೊದಲು, ಸಿಸ್ಟಮ್ ಚಲಿಸುವ ವಸ್ತುಗಳು ಮತ್ತು ಆಕಾಶವನ್ನು ತೆಗೆದುಹಾಕುತ್ತದೆ, ಇದರಿಂದ ದೀರ್ಘಕಾಲದ ನೆನಪಿನಲ್ಲಿ ಕೇವಲ ಸ್ಥಿರವಾದ, ವಿಶ್ವಾಸಾರ್ಹ ಜಿಯೋಮೆಟ್ರಿ ಮಾತ್ರ ಸಂಗ್ರಹಿಸಲ್ಪಡುತ್ತದೆ. ಇದು ಡೈನಾಮಿಕ್ ಅಂಶಗಳಿಂದ ಉಂಟಾಗುವ "ಗೋಸ್ಟಿಂಗ್" (ghosting) ಅಥವಾ ಜಿಯೋಮೆಟ್ರಿಕ್ ವಿರೂಪಗಳನ್ನು ತಡೆಯುತ್ತದೆ.

ದಕ್ಷತೆ ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯ ಬೆಂಚ್‌ಮಾರ್ಕಿಂಗ್

ನಿಖರತೆ ಮತ್ತು ಸಂಪನ್ಮೂಲ ನಿರ್ವಹಣೆ ಎರಡರಲ್ಲೂ Mirage ನ ಕಾರ್ಯಕ್ಷಮತೆಯ ಸುಧಾರಣೆಯು ಗಮನಾರ್ಹವಾಗಿದೆ. WorldScore benchmark ನಲ್ಲಿ, ಬಣ್ಣ ಆಧಾರಿತ ಮೆಮೊರಿಯನ್ನು ಅವಲಂಬಿಸಿರುವ Spatia ಅನ್ನು விட Mirage ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡಿದೆ ಮತ್ತು Wan2.1 ಮತ್ತು CogVideoX ನಂತಹ ಸಾಮಾನ್ಯ ವೀಡಿಯೊ ಜನರೇಟರ್‌ಗಳನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಹಿಂದಿಕ್ಕಿದೆ.

In "closed-loop" tests using the RealEstate10K dataset—where a camera circles back to its starting point—Mirage demonstrated superior ability to maintain surface consistency and spatial structure. Most notably, Mirage solves the scaling issues that plague other models:

Speed: It offers up to 10.57x faster generation than color-based rivals.
Memory Efficiency: It uses up to 55x less memory by operating in a compact latent resolution rather than full-pixel size.
Compute Stability: While rival models' resource demands grow with each new frame, Mirage's compute cost per frame remains nearly flat.

The Future of Navigable AI Environments

While Mirage is highly effective for static interiors, the researchers noted a current limitation: because moving objects are filtered out to maintain geometric integrity, busy scenes with high dynamic content are less optimized. Solving the storage of dynamic content remains the next frontier for the team.

As the industry moves from single-clip generation (like Google's Veo) toward fully interactive, navigable environments (like Google DeepMind's Genie), Mirage provides a critical blueprint for how AI can "remember" the world it is simulating.

Key Takeaways

Latent over Pixel: Mirage bypasses the computational bottleneck of RGB point clouds by storing 3D spatial memory directly in the model's internal latent space.
Massive Efficiency Gains: The model achieves up to 10.57x faster generation and uses 55x less memory compared to traditional color-based memory systems.
Spatial Consistency: By filtering out dynamic objects and focusing on static geometry, Mirage maintains stable environments during long, complex camera paths and closed-loop movements.