Microsoft Mirage: Mengatasi Masalah Memori Spasial dalam Video AI
Model dunia video sedang berevolusi dari sekadar generator klip sederhana menjadi simulator yang canggih, namun mereka sering mengalami "amnesia spasial." Microsoft Research telah memperkenalkan Mirage, sebuah model dunia video terobosan yang mempertahankan pemahaman 3D yang persisten terhadap lingkungan, memastikan bahwa objek dan tata letak tetap konsisten bahkan selama manuver kamera yang kompleks.
Mengatasi Hambatan Memori Berbasis Piksel
Sistem mutakhir saat ini seperti Voyager, WonderWorld, dan Spatia mencoba mengatasi konsistensi spasial dengan menggunakan point cloud 3D yang terdiri dari data warna RGB. Meskipun efektif, metode ini menciptakan "hambatan ganda": mereka membutuhkan daya komputasi yang masif untuk merender point cloud dan mengalami kebocoran informasi setiap kali data diterjemahkan antara ruang piksel dan ruang fitur internal model.
Mirage memperkenalkan pergeseran paradigma dengan memanfaatkan Latent Spatial Memory. Alih-alih menyimpan titik warna yang terlihat, Mirage menyimpan fitur gambar internal yang sudah digunakan oleh model difusi. Dengan memetakan fitur-fitur ini secara langsung ke dalam ruang 3D, model tersebut dapat memproyeksikan memori ke pandangan kamera target dan menyerahkannya ke generator tanpa loop render-and-encode yang mahal seperti yang dibutuhkan oleh pendahulunya.
Arsitektur Teknis: Membangun di Atas Wan2.2
Para peneliti mengembangkan Mirage dengan membangun di atas model video sumber terbuka milik Alibaba, Wan2.2. Untuk mengintegrasikan kesadaran spasial baru ini, mereka menerapkan modul tambahan khusus dan menggunakan adapter LoRA (Low-Rank Adaptation) untuk fine-tuning.
Sistem ini beroperasi dalam segmen, menanamkan latent cache dari bingkai awal. Untuk memastikan memori tetap stabil, Mirage menggunakan mekanisme penyaringan yang canggih. Sebelum menulis ke cache, sistem akan menghapus objek yang bergerak dan langit, memastikan bahwa hanya geometri statis yang andal yang disimpan dalam memori jangka panjang. Hal ini mencegah "ghosting" atau distorsi geometris yang disebabkan oleh elemen dinamis.
Tolok Ukur Efisiensi dan Performa
Peningkatan performa Mirage sangat signifikan baik dalam hal akurasi maupun manajemen sumber daya. Pada tolok ukur WorldScore, Mirage mengungguli Spatia, yang mengandalkan memori berbasis warna, dan melampaui generator video umum seperti Wan2.1 dan CogVideoX secara signifikan.
Dalam pengujian "loop tertutup" menggunakan dataset RealEstate10K—di mana kamera berputar kembali ke titik awalnya—Mirage menunjukkan kemampuan unggul dalam menjaga konsistensi permukaan dan struktur spasial. Yang paling menonjol, Mirage memecahkan masalah penskalaan yang menghambat model lain:
- Kecepatan: Menawarkan generasi hingga 10,57x lebih cepat dibandingkan pesaing berbasis warna.
- Efisiensi Memori: Menggunakan memori hingga 55x lebih sedikit dengan beroperasi pada resolusi laten yang ringkas, bukan pada ukuran piksel penuh.
- Stabilitas Komputasi: Sementara permintaan sumber daya model pesaing meningkat pada setiap frame baru, biaya komputasi Mirage per frame tetap hampir konstan.
Masa Depan Lingkungan AI yang Dapat Dinavigasi
Meskipun Mirage sangat efektif untuk interior statis, para peneliti mencatat adanya batasan saat ini: karena objek yang bergerak disaring untuk menjaga integritas geometris, adegan ramai dengan konten dinamis tinggi menjadi kurang optimal. Menyelesaikan penyimpanan konten dinamis tetap menjadi tantangan berikutnya bagi tim tersebut.
Seiring industri bergerak dari generasi klip tunggal (seperti Veo milik Google) menuju lingkungan yang sepenuhnya interaktif dan dapat dinavigasi (seperti Genie milik Google DeepMind), Mirage memberikan cetak biru krusial tentang bagaimana AI dapat "mengingat" dunia yang sedang disimulasikannya.
Poin-Poin Penting
- Latent di atas Piksel: Mirage melewati hambatan komputasi dari point cloud RGB dengan menyimpan memori spasial 3D secara langsung di dalam ruang laten internal model.
- Peningkatan Efisiensi Besar-besaran: Model ini mencapai generasi hingga 10,57x lebih cepat dan menggunakan memori 55x lebih sedikit dibandingkan sistem memori berbasis warna tradisional.
- Konsistensi Spasial: Dengan menyaring objek dinamis dan berfokus pada geometri statis, Mirage menjaga stabilitas lingkungan selama jalur kamera yang panjang dan kompleks serta pergerakan loop tertutup.