Microsoft Mirage: Menyelesaikan Masalah Memori Spatial dalam Video AI
Model dunia video sedang berkembang daripada penjana klip ringkas kepada simulator yang canggih, namun ia sering mengalami "amnesia spatial." Microsoft Research telah memperkenalkan Mirage, sebuah model dunia video terobosan yang mengekalkan pemahaman 3D persekitaran yang berterusan, memastikan objek dan susun atur kekal konsisten walaupun semasa pergerakan kamera yang kompleks.
Mengatasi Kekangan Memori Berasaskan Piksel
Sistem tercanggih semasa seperti Voyager, WonderWorld, dan Spatia cuba menyelesaikan konsistensi spatial dengan menggunakan awan titik (point clouds) 3D yang terdiri daripada data warna RGB. Walaupun berkesan, kaedah ini mewujudkan "kekangan berganda": ia memerlukan kuasa pengkomputeran yang besar untuk merender awan titik dan mengalami kebocoran maklumat setiap kali data diterjemahkan antara ruang piksel dan ruang ciri dalaman model tersebut.
Mirage memperkenalkan anjakan paradigma dengan menggunakan Latent Spatial Memory. Daripada menyimpan titik warna yang kelihatan, Mirage menyimpan ciri imej dalaman yang sedia digunakan oleh model difusi. Dengan memetakan ciri-ciri ini secara terus ke dalam ruang 3D, model tersebut boleh memancarkan memori ke atas pandangan kamera sasaran dan menyerahkannya kepada penjana tanpa gelung render-dan-kod (render-and-encode loop) yang mahal seperti yang diperlukan oleh pendahulunya.
Seni Bina Teknikal: Dibina Berasaskan Wan2.2
Para penyelidik membangunkan Mirage dengan membina di atas model video sumber terbuka Alibaba, Wan2.2. Untuk menyepadukan kesedaran spatial baharu ini, mereka melaksanakan modul tambahan khusus dan menggunakan adapter LoRA (Low-Rank Adaptation) untuk penalaan halus.
Sistem ini beroperasi dalam segmen, menyemai cache latent daripada bingkai permulaan. Untuk memastikan memori kekal stabil, Mirage menggunakan mekanisme penapisan yang canggih. Sebelum menulis ke dalam cache, sistem akan mengeluarkan objek yang bergerak dan langit, bagi memastikan hanya geometri statik yang boleh dipercayai disimpan dalam memori jangka panjang. Ini mengelakkan kesan "ghosting" atau herotan geometri yang disebabkan oleh elemen dinamik.
Penandaarasan Kecekapan dan Prestasi
Peningkatan prestasi Mirage adalah ketara dari segi ketepatan dan pengurusan sumber. Dalam penandaarasan WorldScore, Mirage mengatasi Spatia, yang bergantung pada memori berasaskan warna, dan jauh melampaui penjana video umum seperti Wan2.1 dan CogVideoX.
Dalam ujian "gelung tertutup" menggunakan set data RealEstate10K—