Microsoft Mirage: AI वीडियो में स्पेशियल मेमोरी (Spatial Memory) की समस्या का समाधान

वीडियो वर्ल्ड मॉडल साधारण क्लिप जनरेटर से विकसित होकर परिष्कृत सिम्युलेटर बन रहे हैं, फिर भी वे अक्सर "स्पेशियल एम्नेशिया" (spatial amnesia) से ग्रस्त होते हैं। Microsoft Research ने Mirage का अनावरण किया है, जो एक क्रांतिकारी वीडियो वर्ल्ड मॉडल है जो वातावरण की निरंतर 3D समझ बनाए रखता है, जिससे यह सुनिश्चित होता है कि जटिल कैमरा मूवमेंट के दौरान भी वस्तुएं और लेआउट सुसंगत बने रहें।

पिक्सेल-आधारित मेमोरी बॉटलनेक (Memory Bottleneck) को दूर करना

Voyager, WonderWorld और Spatia जैसे वर्तमान अत्याधुनिक सिस्टम RGB कलर डेटा से बने 3D पॉइंट क्लाउड्स का उपयोग करके स्पेशियल कंसिस्टेंसी को हल करने का प्रयास करते हैं। हालांकि ये प्रभावी हैं, लेकिन ये तरीके एक "डबल बॉटलनेक" पैदा करते हैं: पॉइंट क्लाउड्स को रेंडर करने के लिए उन्हें भारी कंप्यूटेशनल पावर की आवश्यकता होती है और जब भी डेटा को पिक्सेल स्पेस और मॉडल के आंतरिक फीचर स्पेस के बीच ट्रांसलेट किया जाता है, तो सूचना का रिसाव (information leakage) होता है।

Mirage Latent Spatial Memory का उपयोग करके एक पैराडाइम शिफ्ट लाता है। दृश्यमान कलर पॉइंट्स को स्टोर करने के बजाय, Mirage उन आंतरिक इमेज फीचर्स को स्टोर करता है जिनका उपयोग डिफ्यूजन मॉडल पहले से ही करते हैं। इन फीचर्स को सीधे 3D स्पेस में मैप करके, मॉडल मेमोरी को टारगेट कैमरा व्यू पर प्रोजेक्ट कर सकता है और अपने पूर्ववर्तियों द्वारा आवश्यक महंगे रेंडर-एंड-एनकोड लूप के बिना इसे जनरेटर को सौंप सकता है।

तकनीकी आर्किटेक्चर: Wan2.2 पर आधारित

शोधकर्ताओं ने Alibaba के ओपन-सोर्स वीडियो मॉडल, Wan2.2 पर आधारित करके Mirage विकसित किया है। इस नई स्पेशियल अवेयरनेस को एकीकृत करने के लिए, उन्होंने एक विशेष ऐड-ऑन मॉड्यूल लागू किया और फाइन-ट्यूनिंग के लिए LoRA (Low-Rank Adaptation) एडेप्टर का उपयोग किया।

यह सिस्टम सेगमेंट में काम करता है, जो एक प्रारंभिक फ्रेम से लेटेंट कैश को सीड करता है। यह सुनिश्चित करने के लिए कि मेमोरी स्थिर रहे, Mirage एक परिष्कृत फिल्टरिंग मैकेनिज्म का उपयोग करता है। कैश में लिखने से पहले, सिस्टम चलती हुई वस्तुओं और आकाश को हटा देता है, जिससे यह सुनिश्चित होता है कि केवल स्थिर और विश्वसनीय ज्योमेट्री ही लॉन्ग-टर्म मेमोरी में स्टोर हो। यह डायनेमिक एलिमेंट्स के कारण होने वाली "घोस्टिंग" या जियोमेट्रिक डिस्टॉर्शन को रोकता है।

दक्षता और प्रदर्शन का बेंचमार्किंग

सटीकता और रिसोर्स मैनेजमेंट दोनों में Mirage के प्रदर्शन लाभ महत्वपूर्ण हैं। WorldScore बेंचमार्क पर, Mirage ने Spatia से बेहतर प्रदर्शन किया, जो कलर-आधारित मेमोरी पर निर्भर है, और Wan2.1 और CogVideoX जैसे सामान्य वीडियो जनरेटरों को काफी पीछे छोड़ दिया।

RealEstate10K dataset का उपयोग करते हुए "closed-loop" परीक्षणों में—जहाँ कैमरा अपने शुरुआती बिंदु पर वापस लौटता है—Mirage ने सतह की निरंतरता और स्थानिक संरचना को बनाए रखने की बेहतर क्षमता प्रदर्शित की। सबसे महत्वपूर्ण बात यह है कि Mirage उन स्केलिंग समस्याओं को हल करता है जो अन्य मॉडलों को प्रभावित करती हैं:

  • गति (Speed): यह रंग-आधारित प्रतिद्वंद्वियों की तुलना में 10.57x तक तेज़ जनरेशन प्रदान करता है।
  • मेमोरी दक्षता (Memory Efficiency): यह फुल-पिक्सेल आकार के बजाय एक कॉम्पैक्ट लेटेंट रेजोल्यूशन (compact latent resolution) में काम करके 55x कम मेमोरी का उपयोग करता है।
  • कंप्यूट स्थिरता (Compute Stability): जबकि प्रतिद्वंद्वी मॉडलों की संसाधनों की मांग प्रत्येक नए फ्रेम के साथ बढ़ती जाती है, Mirage की प्रति फ्रेम कंप्यूट लागत लगभग स्थिर रहती है।

नेविगेबल AI वातावरण का भविष्य

हालाँकि Mirage स्थिर इंटीरियर के लिए अत्यधिक प्रभावी है, शोधकर्ताओं ने एक वर्तमान सीमा का उल्लेख किया है: क्योंकि ज्यामितीय अखंडता बनाए रखने के लिए गतिशील वस्तुओं को फ़िल्टर कर दिया जाता है, इसलिए उच्च गतिशील सामग्री वाले व्यस्त दृश्य कम अनुकूलित होते हैं। गतिशील सामग्री के स्टोरेज की समस्या को हल करना टीम के लिए अगली चुनौती है।

जैसे-जैसे उद्योग सिंगल-क्लिप जनरेशन (जैसे Google का Veo) से पूरी तरह से इंटरैक्टिव, नेविगेबल वातावरण (जैसे Google DeepMind का Genie) की ओर बढ़ रहा है, Mirage इस बात का एक महत्वपूर्ण ब्लूप्रिंट प्रदान करता है कि AI उस दुनिया को कैसे "याद" रख सकता है जिसका वह अनुकरण (simulating) कर रहा है।

मुख्य बातें

  • पिक्सेल के बजाय लेटेंट (Latent over Pixel): Mirage 3D स्थानिक मेमोरी को सीधे मॉडल के आंतरिक लेटेंट स्पेस में स्टोर करके RGB पॉइंट क्लाउड्स की कम्प्यूटेशनल बाधा (bottleneck) को दूर करता है।
  • बड़ी दक्षता वृद्धि (Massive Efficiency Gains): यह मॉडल पारंपरिक रंग-आधारित मेमोरी सिस्टम की तुलना में 10.57x तक तेज़ जनरेशन प्राप्त करता है और 55x कम मेमोरी का उपयोग करता है।
  • स्थानिक निरंतरता (Spatial Consistency): गतिशील वस्तुओं को फ़िल्टर करके और स्थिर ज्यामिति पर ध्यान केंद्रित करके, Mirage लंबे, जटिल कैमरा पथों और क्लोज्ड-लूप मूवमेंट के दौरान स्थिर वातावरण बनाए रखता है।