Microsoft Mirage: AI व्हिडिओमधील 'स्पेशियल मेमरी' (Spatial Memory) समस्येचे निराकरण
व्हिडिओ वर्ल्ड मॉडेल्स साध्या क्लिप जनरेटर्सपासून प्रगत सिम्युलेटर्समध्ये विकसित होत आहेत, तरीही त्यांना अनेकदा "स्पेशियल अॅम्नेशिया" (spatial amnesia) चा सामना करावा लागतो. Microsoft Research ने Mirage सादर केले आहे, जे एक क्रांतिकारी व्हिडिओ वर्ल्ड मॉडेल आहे. हे मॉडेल वातावरणाची सतत टिकून राहणारी 3D समज राखते, ज्यामुळे कॅमेऱ्याच्या जटिल हालचालींदरम्यानही वस्तू आणि मांडणी सुसंगत राहते याची खात्री मिळते.
पिक्सेल-आधारित मेमरी बॉटलनेकवर मात करणे
Voyager, WonderWorld आणि Spatia सारखी सध्याची अत्याधुनिक प्रणाली RGB कलर डेटाने बनलेल्या 3D पॉइंट क्लाउड्सचा वापर करून स्पेशियल सुसंगतता सोडवण्याचा प्रयत्न करतात. हे मार्ग प्रभावी असले तरी, ते "दुहेरी बॉटलनेक" निर्माण करतात: पॉइंट क्लाउड्स रेंडर करण्यासाठी त्यांना प्रचंड संगणकीय शक्ती लागते आणि जेव्हा जेव्हा डेटा पिक्सेल स्पेस आणि मॉडेलच्या अंतर्गत फीचर स्पेसमध्ये रूपांतरित केला जातो, तेव्हा माहितीची गळती (information leakage) होण्याची शक्यता असते.
Mirage Latent Spatial Memory चा वापर करून एक मोठा बदल (paradigm shift) घडवून आणते. दृश्यमान कलर पॉइंट्स साठवण्याऐवजी, Mirage त्या अंतर्गत इमेज फीचर्सना साठवते जे डिफ्यूजन मॉडेल्स आधीच वापरतात. या फीचर्सना थेट 3D स्पेसमध्ये मॅप करून, मॉडेल मेमरीला लक्ष्यित कॅमेरा व्ह्यूवर प्रोजेक्ट करू शकते आणि मागील मॉडेल्सना आवश्यक असलेल्या खर्चिक 'रेंडर-अँड-एनकोड' लूपशिवाय ती जनरेटरकडे सोपवू शकते.
तांत्रिक आर्किटेक्चर: Wan2.2 वर आधारित
संशोधकांनी Alibaba च्या Wan2.2 या ओपन-सोर्स व्हिडिओ मॉडेलवर आधारित Mirage विकसित केले आहे. ही नवीन स्पेशियल अवेयरनेस समाविष्ट करण्यासाठी, त्यांनी एक विशेष अॅड-ऑन मॉड्यूल लागू केले आणि फाईन-ट्यूनिंगसाठी LoRA (Low-Rank Adaptation) adapters चा वापर केला.
ही प्रणाली सेगमेंट्समध्ये काम करते, जी सुरुवातीच्या फ्रेमपासून लॅटेंट कॅशेला सीड करते. मेमरी स्थिर राहील याची खात्री करण्यासाठी, Mirage एक प्रगत फिल्टरिंग मेकॅनिझम वापरते. कॅशेमध्ये लिहिण्यापूर्वी, ही प्रणाली हालचाल करणाऱ्या वस्तू आणि आकाश काढून टाकते, ज्यामुळे केवळ स्थिर आणि विश्वसनीय भूमिती (geometry) दीर्घकालीन मेमरीमध्ये साठवली जाते याची खात्री होते. यामुळे डायनॅमिक घटकांमुळे होणारे "घोस्टिंग" किंवा भूमितीय विरूपण (geometric distortions) टाळले जाते.
कार्यक्षमता आणि कामगिरीचे बेंचमार्किंग
अचूकता आणि संसाधन व्यवस्थापन या दोन्ही बाबतीत Mirage च्या कामगिरीतील सुधारणा लक्षणीय आहेत. WorldScore benchmark वर, Mirage ने कलर-आधारित मेमरीवर अवलंबून असलेल्या Spatia ला मागे टाकले आणि Wan2.1 आणि CogVideoX सारख्या सामान्य व्हिडिओ जनरेटर्सपेक्षा लक्षणीयरीत्या सरस कामगिरी केली.
RealEstate10K dataset वापरून केलेल्या "closed-loop" चाचण्यांमध्ये—जिथे कॅमेरा त्याच्या सुरुवातीच्या बिंदूवर परत येतो—Mirage ने पृष्ठभागाची सुसंगतता (surface consistency) आणि अवकाशीय संरचना (spatial structure) राखण्याची उत्कृष्ट क्षमता प्रदर्शित केली. सर्वात महत्त्वाचे म्हणजे, Mirage इतर मॉडेल्सना भेडसावणाऱ्या स्केलिंगच्या समस्या सोडवते:
- वेग (Speed): हे रंग-आधारित (color-based) प्रतिस्पर्ध्यांच्या तुलनेत 10.57x अधिक वेगाने जनरेशन देते.
- मेमरी कार्यक्षमता (Memory Efficiency): पूर्ण-पिक्सेल आकारऐवजी कॉम्पॅक्ट लॅटेंट रिझोल्यूशनमध्ये (compact latent resolution) काम करून हे 55x कमी मेमरी वापरते.
- कॉम्प्युट स्थिरता (Compute Stability): प्रतिस्पर्धी मॉडेल्सची संसाधने (resources) मागणी प्रत्येक नवीन फ्रेमसोबत वाढत असली तरी, Mirage चा प्रति फ्रेम कॉम्प्युट खर्च जवळपास स्थिर राहतो.
नेव्हिगेबल AI एन्व्हायरनमेंट्सचे भविष्य (The Future of Navigable AI Environments)
Mirage स्थिर इंटिरिअर्ससाठी (static interiors) अत्यंत प्रभावी असले तरी, संशोधकांनी एका सध्याच्या मर्यादेकडे लक्ष वेधले आहे: भूमितीय अखंडता (geometric integrity) राखण्यासाठी हलणाऱ्या वस्तूंना फिल्टर केले जाते, त्यामुळे उच्च डायनॅमिक कंटेंट असलेल्या गर्दीच्या दृश्यांचे (busy scenes) ऑप्टिमायझेशन कमी होते. डायनॅमिक कंटेंटच्या स्टोरेजची समस्या सोडवणे हे या टीमसाठी पुढील मोठे आव्हान आहे.
उद्योग जसा सिंगल-क्लिप जनरेशनकडून (Google च्या Veo प्रमाणे) पूर्णपणे इंटरअॅक्टिव्ह, नेव्हिगेबल एन्व्हायरनमेंट्सकडे (Google DeepMind च्या Genie प्रमाणे) वळत आहे, तसे Mirage हे AI ज्या जगाचे सिम्युलेशन करत आहे, ते जग कसे "लक्षात" ठेवू शकते यासाठी एक महत्त्वपूर्ण ब्लूप्रिंट प्रदान करते.
मुख्य निष्कर्ष (Key Takeaways)
- पिक्सेलपेक्षा लॅटेंट (Latent over Pixel): Mirage मॉडेलच्या अंतर्गत लॅटेंट स्पेसमध्ये (internal latent space) थेट 3D अवकाशीय मेमरी साठवून RGB point clouds चा कॉम्प्युटेशनल अडथळा (computational bottleneck) दूर करते.
- प्रचंड कार्यक्षमता वाढ: पारंपारिक रंग-आधारित मेमरी सिस्टमच्या तुलनेत हे मॉडेल 10.57x अधिक वेगाने जनरेशन करते आणि 55x कमी मेमरी वापरते.
- अवकाशीय सुसंगतता (Spatial Consistency): डायनॅमिक वस्तू फिल्टर करून आणि स्थिर भूमितीवर (static geometry) लक्ष केंद्रित करून, Mirage लांब आणि गुंतागुंतीच्या कॅमेरा पाथ्स आणि closed-loop हालचालींदरम्यान स्थिर वातावरण राखते.