Microsoft Mirage: AI વિડિયોમાં સ્પેસિયલ મેમરી (Spatial Memory) સમસ્યાનું નિરાકરણ
વિડિયો વર્લ્ડ મોડલ્સ સાદા ક્લિપ જનરેટર્સમાંથી અત્યાધુનિક સિમ્યુલેટર્સમાં વિકસી રહ્યા છે, તેમ છતાં તેઓ ઘણીવાર "સ્પેસિયલ એમ્નેશિયા" (spatial amnesia) થી પીડાય છે. Microsoft Research એ Mirage રજૂ કર્યું છે, જે એક ક્રાંતિકારી વિડિયો વર્લ્ડ મોડલ છે જે વાતાવરણની સતત 3D સમજ જાળવી રાખે છે, જે સુનિશ્ચિત કરે છે કે જટિલ કેમેરા મેન્યુવર્સ દરમિયાન પણ વસ્તુઓ અને લેઆઉટ સુસંગત રહે.
પિક્સેલ-આધારિત મેમરી બોટલનેક (Bottleneck) પર વિજય
Voyager, WonderWorld અને Spatia જેવી વર્તમાન અત્યાધુનિક સિસ્ટમ્સ RGB કલર ડેટાથી બનેલા 3D પોઈન્ટ ક્લાઉડ્સનો ઉપયોગ કરીને સ્પેસિયલ સુસંગતતા (spatial consistency) ઉકેલવાનો પ્રયાસ કરે છે. અસરકારક હોવા છતાં, આ પદ્ધતિઓ "ડબલ બોટલનેક" બનાવે છે: પોઈન્ટ ક્લાઉડ્સ રેન્ડર કરવા માટે તેમને વિશાળ કમ્પ્યુટેશનલ પાવરની જરૂર પડે છે અને જ્યારે પણ ડેટા પિક્સેલ સ્પેસ અને મોડલના આંતરિક ફીચર સ્પેસ વચ્ચે રૂપાંતરિત થાય છે ત્યારે માહિતીના લીકેજ (information leakage) નો સામનો કરવો પડે છે.
Mirage Latent Spatial Memory નો ઉપયોગ કરીને એક નવો અભિગમ (paradigm shift) રજૂ કરે છે. દૃશ્યમાન કલર પોઈન્ટ્સ સ્ટોર કરવાને બદલે, Mirage એ આંતરિક ઈમેજ ફીચર્સ સ્ટોર કરે છે જે ડિફ્યુઝન મોડલ્સ પહેલેથી જ ઉપયોગમાં લે છે. આ ફીચર્સને સીધા 3D સ્પેસમાં મેપ કરીને, મોડલ ટાર્ગેટ કેમેરા વ્યુ પર મેમરી પ્રોજેક્ટ કરી શકે છે અને તેના પૂર્વવર્તીઓની જરૂરિયાત મુજબના ખર્ચાળ 'રેન્ડર-એન્ડ-એનકોડ' લૂપ વગર જ તેને જનરેટરને સોંપી શકે છે.
ટેકનિકલ આર્કિટેક્ચર: Wan2.2 પર આધારિત
સંશોધકોએ Alibaba ના ઓપન-સોર્સ વિડિયો મોડલ, Wan2.2 પર આધારિત કરીને Mirage વિકસાવ્યું છે. આ નવી સ્પેસિયલ અવેરનેસને એકીકૃત કરવા માટે, તેઓએ એક વિશિષ્ટ એડ-ઓન મોડ્યુલ અમલમાં મૂક્યું અને ફાઇન-ટ્યુનિંગ માટે LoRA (Low-Rank Adaptation) એડેપ્ટર્સ નો ઉપયોગ કર્યો.
સિસ્ટમ સેગમેન્ટ્સમાં કામ કરે છે, જે પ્રારંભિક ફ્રેમમાંથી લેટન્ટ કેશ (latent cache) સીડ કરે છે. મેમરી સ્થિર રહે તે સુનિશ્ચિત કરવા માટે, Mirage એક અત્યાધુનિક ફિલ્ટરિંગ મિકેનિઝમનો ઉપયોગ કરે છે. કેશમાં લખતા પહેલા, સિસ્ટમ ચાલતી વસ્તુઓ અને આકાશને દૂર કરે છે, જે સુનિશ્ચિત કરે છે કે લાંબા ગાળાની મેમરીમાં માત્ર સ્થિર અને વિશ્વસનીય ભૂમિતિ (geometry) જ સ્ટોર થાય. આ ડાયનેમિક એલિમેન્ટ્સ દ્વારા થતા "ઘોસ્ટિંગ" (ghosting) અથવા ભૂમિતિના વિકૃતિઓને અટકાવે છે.
કાર્યક્ષમતા અને પ્રદર્શનનું બેન્ચમાર્કિંગ
ચોકસાઈ અને સંસાધન વ્યવસ્થાપન (resource management) બંનેમાં Mirage ના પ્રદર્શનમાં નોંધપાત્ર સુધારો જોવા મળ્યો છે. WorldScore benchmark પર, Mirage એ Spatia કરતા વધુ સારું પ્રદર્શન કર્યું છે, જે કલર-આધારિત મેમરી પર આધાર રાખે છે, અને Wan2.1 અને CogVideoX જેવા સામાન્ય વિડિયો જનરેટર્સ કરતા નોંધપાત્ર રીતે આગળ નીકળી ગયું છે.
RealEstate10K dataset નો ઉપયોગ કરીને કરવામાં આવેલા "closed-loop" ટેસ્ટમાં—જ્યાં કેમેરા તેના શરૂઆતના બિંદુ પર પાછો ફરે છે—Mirage એ સપાટીની સુસંગતતા અને અવકાશીય માળખું જાળવી રાખવાની શ્રેષ્ઠ ક્ષમતા દર્શાવી છે. સૌથી નોંધપાત્ર રીતે, Mirage એ સ્કેલિંગની સમસ્યાઓનું નિરાકરણ લાવે છે જે અન્ય મોડલ્સમાં જોવા મળે છે:
- ઝડપ: તે રંગ-આધારિત હરીફો કરતા 10.57x વધુ ઝડપી જનરેશન પ્રદાન કરે છે.
- મેમરી કાર્યક્ષમતા: તે ફૂલ-પિક્સેલ કદને બદલે કોમ્પેક્ટ લેટન્ટ રિઝોલ્યુશનમાં કામ કરીને 55x ઓછી મેમરી વાપરે છે.
- કમ્પ્યુટ સ્ટેબિલિટી: જ્યારે હરીફ મોડલ્સની સંસાધનોની માંગ દરેક નવા ફ્રેમ સાથે વધતી જાય છે, ત્યારે Mirage નો પ્રતિ ફ્રેમ કમ્પ્યુટ ખર્ચ લગભગ સ્થિર રહે છે.
નેવિગેટેબલ AI એન્વાયરમેન્ટ્સનું ભવિષ્ય
જોકે Mirage સ્થિર ઇન્ટિરિયર્સ માટે અત્યંત અસરકારક છે, સંશોધકોએ એક વર્તમાન મર્યાદા નોંધાવી છે: ભૌમિતિક અખંડિતતા જાળવી રાખવા માટે ગતિશીલ વસ્તુઓને ફિલ્ટર કરવામાં આવે છે, તેથી વધુ ડાયનેમિક કન્ટેન્ટ ધરાવતા વ્યસ્ત દ્રશ્યો ઓછા ઓપ્ટિમાઇઝ્ડ હોય છે. ડાયનેમિક કન્ટેન્ટના સ્ટોરેજની સમસ્યાનું નિરાકરણ લાવવું એ ટીમ માટે આગામી પડકાર છે.
જેમ જેમ ઉદ્યોગ સિંગલ-ક્લિપ જનરેશન (જેમ કે Google's Veo) થી સંપૂર્ણ ઇન્ટરેક્ટિવ, નેવિગેટેબલ એન્વાયરમેન્ટ્સ (જેમ કે Google DeepMind's Genie) તરફ આગળ વધી રહ્યો છે, તેમ Mirage એ એક મહત્વપૂર્ણ બ્લુપ્રિન્ટ પૂરી પાડે છે કે કેવી રીતે AI તે વિશ્વને "યાદ" રાખી શકે છે જેનું તે સિમ્યુલેશન કરી રહ્યું છે.
મુખ્ય તારણો
- પિક્સેલ કરતા લેટન્ટ વધુ: Mirage મોડલના આંતરિક લેટન્ટ સ્પેસમાં સીધી 3D અવકાશીય મેમરી સ્ટોર કરીને RGB પોઈન્ટ ક્લાઉડ્સના કમ્પ્યુટેશનલ બોટલનેકને દૂર કરે છે.
- ભવ્ય કાર્યક્ષમતામાં વધારો: પરંપરાગત રંગ-આધારિત મેમરી સિસ્ટમ્સની સરખામણીમાં આ મોડલ 10.57x વધુ ઝડપી જનરેશન પ્રાપ્ત કરે છે અને 55x ઓછી મેમરી વાપરે છે.
- અવકાશીય સુસંગતતા: ડાયનેમિક વસ્તુઓને ફિલ્ટર કરીને અને સ્થિર ભૂમિતિ પર ધ્યાન કેન્દ્રિત કરીને, Mirage લાંબા, જટિલ કેમેરા પાથ અને ક્લોઝ્ડ-લૂપ મૂવમેન્ટ્સ દરમિયાન સ્થિર વાતાવરણ જાળવી રાખે છે.