Microsoft Mirage: AI வீடியோவில் இடஞ்சார்ந்த நினைவகப் பிரச்சனையைத் தீர்த்தல்

வீடியோ உலக மாதிரிகள் (Video world models) எளிய கிளிப் உருவாக்குபவர்களிலிருந்து அதிநவீன உருவகப்படுத்துபவர்களாக (simulators) பரிணமித்து வருகின்றன, இருப்பினும் அவை பெரும்பாலும் "இடஞ்சார்ந்த மறதி" (spatial amnesia) என்ற சிக்கலைச் சந்திக்கின்றன. Microsoft Research, Mirage என்ற ஒரு புரட்சிகரமான வீடியோ உலக மாதிரியை அறிமுகப்படுத்தியுள்ளது. இது சூழல்களின் நிலையான 3D புரிதலைப் பராமரிப்பதன் மூலம், சிக்கலான கேமரா நகர்வுகளின் போதும் பொருட்கள் மற்றும் அமைப்புகள் சீராக இருப்பதை உறுதி செய்கிறது.

பிக்சல் அடிப்படையிலான நினைவகத் தடையை முறியடித்தல்

Voyager, WonderWorld மற்றும் Spatia போன்ற தற்போதைய அதிநவீன அமைப்புகள், RGB வண்ணத் தரவுகளால் ஆன 3D பாயிண்ட் கிளவுட்களைப் (point clouds) பயன்படுத்தி இடஞ்சார்ந்த சீரான தன்மையைச் சரிசெய்ய முயல்கின்றன. இவை பயனுள்ளதாக இருந்தாலும், இந்த முறைகள் ஒரு "இரட்டைத் தடையை" (double bottleneck) உருவாக்குகின்றன: பாயிண்ட் கிளவுட்களை உருவாக்க மிகப்பெரிய கணக்கீட்டுத் திறன் தேவைப்படுகிறது, மேலும் தரவு பிக்சல் இடைவெளியிலிருந்து மாதிரியின் உள் அம்ச இடைவெளிக்கு (internal feature space) மாற்றப்படும் ஒவ்வொரு முறையும் தகவல் கசிவு (information leakage) ஏற்படுகிறது.

Mirage, Latent Spatial Memory முறையைப் பயன்படுத்துவதன் மூலம் ஒரு புதிய அணுகுமுறையை அறிமுகப்படுத்துகிறது. கண்ணுக்குத் தெரியும் வண்ணப் புள்ளிகளைச் சேமிப்பதற்குப் பதிலாக, Mirage டிஃப்யூஷன் மாதிரிகள் (diffusion models) ஏற்கனவே பயன்படுத்தும் உள் பட அம்சங்களைச் சேமிக்கிறது. இந்த அம்சங்களை நேரடியாக 3D இடத்திற்கு வரைபடமாக்குவதன் மூலம், முந்தைய மாதிரிகளுக்குத் தேவைப்பட்ட செலவு மிகுந்த 'ரெண்டர்-மற்றும்-என்கோட்' (render-and-encode) சுழற்சி இன்றி, நினைவகத்தை இலக்கு கேமரா காட்சியில் முன்வைக்கவும், அதை உருவாக்குநரிடம் (generator) ஒப்படைக்கவும் இந்த மாதிரிக்கு முடிகிறது.

தொழில்நுட்பக் கட்டமைப்பு: Wan2.2-ன் அடிப்படையில் அமைத்தல்

ஆராய்ச்சியாளர்கள் Alibaba-வின் ஓப்பன் சோர்ஸ் வீடியோ மாதிரியான Wan2.2-ன் அடிப்படையில் Mirage-ஐ உருவாக்கினர். இந்த புதிய இடஞ்சார்ந்த விழிப்புணர்வை ஒருங்கிணைக்க, அவர்கள் ஒரு சிறப்பு கூடுதல் தொகுதியை (add-on module) செயல்படுத்தி, ஃபைன்-டியூனிங்கிற்காக (fine-tuning) LoRA (Low-Rank Adaptation) adapters பயன்படுத்தினர்.

இந்த அமைப்பு துண்டுகளாகச் செயல்படுகிறது, ஆரம்பக் கட்டமைப்பிலிருந்து லேட்டண்ட் கேச்-ஐ (latent cache) விதைக்கிறது. நினைவகம் நிலையாக இருப்பதை உறுதி செய்ய, Mirage ஒரு அதிநவீன வடிகட்டுதல் நுட்பத்தைப் பயன்படுத்துகிறது. கேச்சில் எழுதுவதற்கு முன், இந்த அமைப்பு நகரும் பொருட்கள் மற்றும் வானத்தை நீக்கிவிடுகிறது, இதன் மூலம் நிலையான மற்றும் நம்பகமான வடிவியல் (geometry) மட்டுமே நீண்டகால நினைவகத்தில் சேமிக்கப்படுவதை உறுதி செய்கிறது. இது மாறும் கூறுகளால் ஏற்படும் "கோஸ்டிங்" (ghosting) அல்லது வடிவியல் சிதைவுகளைத் தடுக்கிறது.

செயல்திறன் மற்றும் திறனை அளவிடுதல்

துல்லியம் மற்றும் வள மேலாண்மை ஆகிய இரண்டிலும் Mirage-ன் செயல்திறன் முன்னேற்றங்கள் குறிப்பிடத்தக்கவை. WorldScore benchmark சோதனையில், வண்ண அடிப்படையிலான நினைவகத்தைச் சார்ந்திருக்கும் Spatia-வை விட Mirage சிறப்பாகச் செயல்பட்டதுடன், Wan2.1 மற்றும் CogVideoX போன்ற பொதுவான வீடியோ உருவாக்குபவர்களை விட கணிசமாகத் தாண்டியது.

In "closed-loop" tests using the RealEstate10K dataset—where a camera circles back to its starting point—Mirage demonstrated superior ability to maintain surface consistency and spatial structure. Most notably, Mirage solves the scaling issues that plague other models:

  • Speed: It offers up to 10.57x faster generation than color-based rivals.
  • Memory Efficiency: It uses up to 55x less memory by operating in a compact latent resolution rather than full-pixel size.
  • Compute Stability: While rival models' resource demands grow with each new frame, Mirage's compute cost per frame remains nearly flat.

The Future of Navigable AI Environments

While Mirage is highly effective for static interiors, the researchers noted a current limitation: because moving objects are filtered out to maintain geometric integrity, busy scenes with high dynamic content are less optimized. Solving the storage of dynamic content remains the next frontier for the team.

As the industry moves from single-clip generation (like Google's Veo) toward fully interactive, navigable environments (like Google DeepMind's Genie), Mirage provides a critical blueprint for how AI can "remember" the world it is simulating.

Key Takeaways

  • Latent over Pixel: Mirage bypasses the computational bottleneck of RGB point clouds by storing 3D spatial memory directly in the model's internal latent space.
  • Massive Efficiency Gains: The model achieves up to 10.57x faster generation and uses 55x less memory compared to traditional color-based memory systems.
  • Spatial Consistency: By filtering out dynamic objects and focusing on static geometry, Mirage maintains stable environments during long, complex camera paths and closed-loop movements.