Microsoft Mirage: Yapay Zeka Videolarında
RealEstate10K veri seti kullanılarak yapılan ve kameranın başlangıç noktasına geri döndüğü "kapalı döngü" testlerinde Mirage, yüzey tutarlılığını ve mekânsal yapıyı koruma konusunda üstün bir yetenek sergiledi. En dikkat çekici olanı, Mirage'ın diğer modellerin karşılaştığı ölçeklendirme sorunlarını çözmesidir:
- Hız: Renk tabanlı rakiplerinden 10,57 kata kadar daha hızlı üretim sunar.
- Bellek Verimliliği: Tam piksel boyutu yerine kompakt bir latent çözünürlükte çalışarak 55 kata kadar daha az bellek kullanır.
- Hesaplama Kararlılığı: Rakip modellerin kaynak talepleri her yeni kareyle birlikte artarken, Mirage'ın kare başına hesaplama maliyeti neredeyse sabit kalır.
Gezinilebilir Yapay Zeka Ortamlarının Geleceği
Mirage statik iç mekanlar için oldukça etkili olsa da araştırmacılar mevcut bir sınırlamaya dikkat çekti: Geometrik bütünlüğü korumak için hareketli nesneler filtrelendiğinden, yüksek dinamik içeriğe sahip yoğun sahneler daha az optimize edilmiştir. Dinamik içeriğin depolanması sorununun çözülmesi, ekip için bir sonraki aşama olmaya devam ediyor.
Sektör, tekli klip üretiminden (Google'ın Veo'su gibi) tam etkileşimli ve gezinebilir ortamlara (Google DeepMind'ın Genie'si gibi) doğru ilerlerken, Mirage yapay zekanın simüle ettiği dünyayı nasıl "hatırlayabileceğine" dair kritik bir yol haritası sunuyor.
Temel Çıkarımlar
- Piksel Yerine Latent: Mirage, 3D mekânsal belleği doğrudan modelin dahili latent uzayında depolayarak RGB nokta bulutlarının hesaplama darboğazını aşar.
- Muazzam Verimlilik Artışları: Model, geleneksel renk tabanlı bellek sistemlerine kıyasla 10,57 kata kadar daha hızlı üretim gerçekleştirir ve 55 kat daha az bellek kullanır.
- Mekânsal Tutarlılık: Mirage, dinamik nesneleri filtreleyip statik geometriye odaklanarak uzun, karmaşık kamera yolları ve kapalı döngü hareketleri sırasında kararlı ortamlar sağlar.