Microsoft Mirage: פתרון בעיית הזיכרון המרחבי בווידאו מבוסס AI

מודלים של עולמות וידאו (video world models) מתפתחים ממחוללי קליפים פשוטים לסימולטורים מתוחכמים, אך לעיתים קרובות הם סובלים מ"אמנזיה מרחבית". Microsoft Research חשפה את Mirage, מודל עולם וידאו פורץ דרך השומר על הבנה תלת-ממדית עקבית של סביבות, מה שמבטיח שחפצים ופריסות יישארו עקביים גם במהלך תמרוני מצלמה מורכבים.

התגברות על צוואר הבקבוק של הזיכרון מבוסס הפיקסלים

מערכות מתקדמות (state-of-the-art) כיום, כמו Voyager, WonderWorld ו-Spatia, מנסות לפתור עקביות מרחבית באמצעות שימוש בענני נקודות (point clouds) תלת-ממדיים המורכבים מנתוני צבע RGB. למרות שהן יעילות, שיטות אלו יוצרות "צוואר בקבוק כפול": הן דורשות כוח מחשוב עצום כדי לרנדר ענני נקודות, וסובלות מ"זליגת מידע" בכל פעם שהנתונים מתורגמים בין מרחב הפיקסלים למרחב התכונות (feature space) הפנימי של המודל.

Mirage מציגה שינוי פרדיגמה על ידי שימוש ב-Latent Spatial Memory. במקום לאחסן נקודות צבע נראות לעין, Mirage מאחסנת את תכונות התמונה הפנימיות שמודילי Diffusion כבר משתמשים בהן. על ידי מיפוי התכונות הללו ישירות למרחב תלת-ממדי, המודל יכול להקרין את הזיכרון על מבט מצלמה מיועד ולהעביר אותו למחולל (generator) ללא לולאת הרינדור והקידוד (render-and-encode) היקרה הנדרשת במודלים קודמים.

ארכיטקטורה טכנית: בנייה על בסיס Wan2.2

החוקרים פיתחו את Mirage על בסיס מודל הווידאו בקוד פתוח של Alibaba, Wan2.2. כדי לשלב את המודעות המרחבית החדשה הזו, הם הטמיעו מודול תוסף ייעודי והשתמשו ב-LoRA (Low-Rank Adaptation) adapters לכוונון עדין (fine-tuning).

המערכת פועלת במקטעים, ומזינה את הזיכרון המטמון הלטנטי (latent cache) מתוך פרייים ראשוני. כדי להבטיח שהזיכרון יישאר יציב, Mirage משתמשת במנגנון סינון מתוחכם. לפני הכתיבה למטמון, המערכת מסירה אובייקטים נעים ואת השמיים, ובכך מבטיחה שרק גיאומטריה סטטית ואמינה תישמר בזיכרון לטווח ארוך. דבר זה מונע "ghosting" או עיוותים גיאומטריים הנגרמים על ידי אלמנטים דינמיים.

בחינת יעילות וביצועים

שיפורי הביצועים של Mirage הם משמעותיים הן בדיוק והן בניהול משאבים. בבדיקת הביצועים WorldScore benchmark, Mirage עלתה על Spatia, המסתמכת על זיכרון מבוסס צבע, ועקפה באופן משמעותי מחוללי וידאו כלליים כמו Wan2.1 ו-CogVideoX.

In "closed-loop" tests using the RealEstate10K dataset—where a camera circles back to its starting point—Mirage demonstrated superior ability to maintain surface consistency and spatial structure. Most notably, Mirage solves the scaling issues that plague other models:

  • Speed: It offers up to 10.57x faster generation than color-based rivals.
  • Memory Efficiency: It uses up to 55x less memory by operating in a compact latent resolution rather than full-pixel size.
  • Compute Stability: While rival models' resource demands grow with each new frame, Mirage's compute cost per frame remains nearly flat.

The Future of Navigable AI Environments

While Mirage is highly effective for static interiors, the researchers noted a current limitation: because moving objects are filtered out to maintain geometric integrity, busy scenes with high dynamic content are less optimized. Solving the storage of dynamic content remains the next frontier for the team.

As the industry moves from single-clip generation (like Google's Veo) toward fully interactive, navigable environments (like Google DeepMind's Genie), Mirage provides a critical blueprint for how AI can "remember" the world it is simulating.

Key Takeaways

  • Latent over Pixel: Mirage bypasses the computational bottleneck of RGB point clouds by storing 3D spatial memory directly in the model's internal latent space.
  • Massive Efficiency Gains: The model achieves up to 10.57x faster generation and uses 55x less memory compared to traditional color-based memory systems.
  • Spatial Consistency: By filtering out dynamic objects and focusing on static geometry, Mirage maintains stable environments during long, complex camera paths and closed-loop movements.