Microsoft Mirage: решение проблемы пространственной памяти в ИИ-видео

Модели видеомиров эволюционируют от простых генераторов клипов к сложным симуляторам, однако они часто страдают от «пространственной амнезии». Microsoft Research представила Mirage — прорывную модель видеомира, которая поддерживает устойчивое 3D-понимание окружения, гарантируя, что объекты и планировка остаются неизменными даже при сложных маневрах камеры.

Преодоление узкого места пиксельной памяти

Современные передовые системы, такие как Voyager, WonderWorld и Spatia, пытаются решить проблему пространственной согласованности с помощью 3D-облаков точек, состоящих из данных RGB-цвета. Несмотря на эффективность, эти методы создают «двойное узкое место»: они требуют огромных вычислительных мощностей для рендеринга облаков точек и страдают от утечки информации при каждом преобразовании данных между пиксельным пространством и внутренним пространством признаков модели.

Mirage совершает смену парадигмы, используя латентную пространственную память (Latent Spatial Memory). Вместо хранения видимых цветовых точек, Mirage сохраняет внутренние признаки изображений, которые уже используются диффузионными моделями. Напрямую отображая эти признаки в 3D-пространство, модель может проецировать память на целевой вид камеры и передавать её генератору, избегая дорогостоящего цикла «рендеринг-кодирование», необходимого её предшественникам.

Техническая архитектура: на базе Wan2.2

Исследователи разработали Mirage на базе открытой видеомодели Wan2.2 от Alibaba. Чтобы интегрировать это новое пространственное восприятие, они внедрили специализированный дополнительный модуль и использовали адаптеры LoRA (Low-Rank Adaptation) для тонкой настройки.

Система работает сегментами, инициализируя латентный кэш из начального кадра. Чтобы обеспечить стабильность памяти, Mirage использует сложный механизм фильтрации. Перед записью в кэш система удаляет движущиеся объекты и небо, гарантируя, что в долговременной памяти сохраняется только статичная, надежная геометрия. Это предотвращает появление «призраков» (ghosting) или геометрических искажений, вызванных динамическими элементами.

Тестирование эффективности и производительности

Прирост производительности Mirage значителен как в точности, так и в управлении ресурсами. В бенчмарке WorldScore Mirage превзошла Spatia, которая полагается на цветовую память, и значительно опередила универсальные видеогенераторы, такие как Wan2.1 и CogVideoX.

В тестах с «замкнутым циклом» (closed-loop) на базе датасета RealEstate10K — где камера возвращается в исходную точку — Mirage продемонстрировала превосходную способность сохранять согласованность поверхностей и пространственную структуру. Что наиболее важно, Mirage решает проблемы масштабирования, которые мешают другим моделям:

  • Скорость: она обеспечивает генерацию до 10,57 раза быстрее, чем конкурирующие модели, основанные на цвете.
  • Эффективность памяти: она использует до 55 раз меньше памяти, работая в компактном латентном разрешении, а не в полном разрешении пикселей.
  • Стабильность вычислений: в то время как требования к ресурсам конкурирующих моделей растут с каждым новым кадром, вычислительные затраты Mirage на один кадр остаются практически неизменными.

Будущее навигационных ИИ-сред

Хотя Mirage крайне эффективна для статических интерьеров, исследователи отметили текущее ограничение: поскольку движущиеся объекты отфильтровываются для сохранения геометрической целостности, перегруженные сцены с высоким уровнем динамического контента оптимизированы хуже. Решение вопроса хранения динамического контента остается следующим рубежом для команды.

По мере того как индустрия переходит от генерации одиночных клипов (таких как Google Veo) к полностью интерактивным, навигационным средам (таким как Google DeepMind Genie), Mirage предлагает важнейшую концепцию того, как ИИ может «запоминать» мир, который он симулирует.

Основные выводы

  • Латентное пространство вместо пикселей: Mirage обходит вычислительное «узкое место» RGB-облаков точек, сохраняя 3D-пространственную память непосредственно во внутреннем латентном пространстве модели.
  • Огромный прирост эффективности: модель обеспечивает генерацию до 10,57 раза быстрее и использует в 55 раз меньше памяти по сравнению с традиционными системами памяти, основанными на цвете.
  • Пространственная согласованность: отфильтровывая динамические объекты и фокусируясь на статической геометрии, Mirage поддерживает стабильность среды при длительных, сложных траекториях камеры и движениях по замкнутому циклу.