Microsoft Mirage : Résoudre le problème de la mémoire spatiale dans la vidéo par IA

Les modèles de monde vidéo évoluent, passant de simples générateurs de clips à des simulateurs sophistiqués, mais ils souffrent souvent d'une « amnésie spatiale ». Microsoft Research a dévoilé Mirage, un modèle de monde vidéo révolutionnaire qui maintient une compréhension 3D persistante des environnements, garantissant que les objets et les agencements restent cohérents, même lors de manœuvres de caméra complexes.

Surmonter le goulot d'étranglement de la mémoire basée sur les pixels

Les systèmes de pointe actuels tels que Voyager, WonderWorld et Spatia tentent de résoudre la cohérence spatiale en utilisant des nuages de points 3D composés de données de couleur RVB. Bien qu'efficaces, ces méthodes créent un « double goulot d'étranglement » : elles nécessitent une puissance de calcul massive pour le rendu des nuages de points et souffrent de fuites d'informations chaque fois que les données sont traduites entre l'espace des pixels et l'espace de caractéristiques interne du modèle.

Mirage introduit un changement de paradigme en utilisant la mémoire spatiale latente. Au lieu de stocker des points de couleur visibles, Mirage stocke les caractéristiques d'image internes que les modèles de diffusion utilisent déjà. En projetant ces caractéristiques directement dans l'espace 3D, le modèle peut projeter la mémoire sur une vue de caméra cible et la transmettre au générateur sans la boucle coûteuse de rendu et d'encodage requise par ses prédécesseurs.

Architecture technique : s'appuyer sur Wan2.2

Les chercheurs ont développé Mirage en s'appuyant sur le modèle vidéo open-source d'Alibaba, Wan2.2. Pour intégrer cette nouvelle conscience spatiale, ils ont implémenté un module complémentaire spécialisé et utilisé des adaptateurs LoRA (Low-Rank Adaptation) pour l'ajustement fin.

Le système fonctionne par segments, en amorçant le cache latent à partir d'une image initiale. Pour garantir la stabilité de la mémoire, Mirage emploie un mécanisme de filtrage sophistiqué. Avant l'écriture dans le cache, le système élimine les objets en mouvement et le ciel, garantissant que seule une géométrie statique et fiable est stockée dans la mémoire à long terme. Cela évite les effets de « ghosting » ou les distorsions géométriques causés par les éléments dynamiques.

Évaluation de l'efficacité et des performances

Les gains de performance de Mirage sont significatifs, tant en termes de précision que de gestion des ressources. Sur le benchmark WorldScore, Mirage a surpassé Spatia, qui repose sur une mémoire basée sur la couleur, et a largement dépassé les générateurs de vidéo généralistes comme Wan2.1 et CogVideoX.

Lors des tests « en boucle fermée » utilisant le jeu de données RealEstate10K — où une caméra revient à son point de départ — Mirage a démontré une capacité supérieure à maintenir la cohérence de surface et la structure spatiale. Plus notablement, Mirage résout les problèmes de mise à l'échelle qui affectent les autres modèles :

  • Vitesse : Il offre une génération jusqu'à 10,57x plus rapide que ses rivaux basés sur la couleur.
  • Efficacité mémoire : Il utilise jusqu'à 55x moins de mémoire en opérant dans une résolution latente compacte plutôt qu'à la taille de pixel complète.
  • Stabilité de calcul : Alors que les besoins en ressources des modèles rivaux augmentent à chaque nouvelle image, le coût de calcul par image de Mirage reste presque constant.

L'avenir des environnements IA navigables

Bien que Mirage soit très efficace pour les intérieurs statiques, les chercheurs ont noté une limitation actuelle : comme les objets en mouvement sont filtrés pour maintenir l'intégrité géométrique, les scènes animées à fort contenu dynamique sont moins optimisées. La résolution du stockage du contenu dynamique reste la prochaine frontière pour l'équipe.

Alors que l'industrie passe de la génération de clips uniques (comme Veo de Google) vers des environnements entièrement interactifs et navigables (comme Genie de Google DeepMind), Mirage fournit un modèle essentiel sur la manière dont l'IA peut « se souvenir » du monde qu'elle simule.

Points clés à retenir

  • Latent plutôt que Pixel : Mirage contourne le goulot d'étranglement computationnel des nuages de points RGB en stockant la mémoire spatiale 3D directement dans l'espace latent interne du modèle.
  • Gains d'efficacité massifs : Le modèle atteint une génération jusqu'à 10,57x plus rapide et utilise 55x moins de mémoire par rapport aux systèmes de mémoire traditionnels basés sur la couleur.
  • Cohérence spatiale : En filtrant les objets dynamiques et en se concentrant sur la géométrie statique, Mirage maintient des environnements stables lors de trajectoires de caméra longues et complexes et de mouvements en boucle fermée.