Microsoft Mirage: AI 비디오의 공간 메모리 문제 해결

비디오 월드 모델은 단순한 클립 생성기에서 정교한 시뮬레이터로 진화하고 있지만, 종종 "공간적 건망증(spatial amnesia)" 문제를 겪습니다. Microsoft Research는 환경에 대한 지속적인 3D 이해를 유지하여, 복잡한 카메라 움직임 중에도 객체와 레이아웃이 일관되게 유지되도록 보장하는 혁신적인 비디오 월드 모델인 Mirage를 공개했습니다.

픽셀 기반 메모리 병목 현상 극복

Voyager, WonderWorld, Spatia와 같은 현재의 최첨단 시스템들은 RGB 색상 데이터로 구성된 3D 포인트 클라우드를 사용하여 공간적 일관성을 해결하려고 시도합니다. 이러한 방식은 효과적이긴 하지만 "이중 병목 현상"을 초래합니다. 포인트 클라우드를 렌더링하는 데 막대한 연산 능력이 필요할 뿐만 아니라, 데이터를 픽셀 공간과 모델의 내부 특징 공간 사이에서 변환할 때마다 정보 누출이 발생하기 때문입니다.

Mirage는 Latent Spatial Memory를 활용하여 패러다임의 전환을 가져옵니다. 눈에 보이는 색상 포인트를 저장하는 대신, Mirage는 확산 모델(diffusion models)이 이미 사용하고 있는 내부 이미지 특징을 저장합니다. 이러한 특징을 3D 공간에 직접 매핑함으로써, 모델은 이전 모델들에 필요했던 비용이 많이 드는 렌더링 및 인코딩 루프 없이도 메모리를 대상 카메라 뷰에 투영하여 생성기에 전달할 수 있습니다.

기술 아키텍처: Wan2.2를 기반으로 구축

연구진은 Alibaba의 오픈 소스 비디오 모델인 Wan2.2를 기반으로 Mirage를 개발했습니다. 이러한 새로운 공간 인지 기능을 통합하기 위해 특화된 애드온 모듈을 구현했으며, 미세 조정을 위해 LoRA (Low-Rank Adaptation) 어댑터를 활용했습니다.

이 시스템은 세그먼트 단위로 작동하며, 초기 프레임으로부터 잠재 캐시(latent cache)를 시딩합니다. 메모리의 안정성을 보장하기 위해 Mirage는 정교한 필터링 메커니즘을 채택했습니다. 캐시에 기록하기 전에 시스템은 움직이는 객체와 하늘을 제거하여, 정적이고 신뢰할 수 있는 기하학적 구조만이 장기 메모리에 저장되도록 합니다. 이를 통해 동적 요소로 인해 발생하는 "고스팅(ghosting)" 현상이나 기하학적 왜곡을 방지합니다.

효율성 및 성능 벤치마킹

Mirage의 성능 향상은 정확도와 리소스 관리 모두에서 매우 유의미합니다. WorldScore 벤치마크에서 Mirage는 색상 기반 메모리에 의존하는 Spatia보다 뛰어난 성능을 보였으며, Wan2.1 및 CogVideoX와 같은 일반적인 비디오 생성기들을 크게 앞질렀습니다.

카메라가 시작 지점으로 다시 돌아오는 RealEstate10K 데이터셋을 사용한 "폐쇄 루프(closed-loop)" 테스트에서, Mirage는 표면 일관성과 공간 구조를 유지하는 데 탁월한 능력을 보여주었습니다. 특히 Mirage는 다른 모델들이 겪고 있는 스케일링 문제를 해결합니다:

  • 속도: 색상 기반의 경쟁 모델들보다 최대 10.57배 빠른 생성 속도를 제공합니다.
  • 메모리 효율성: 전체 픽셀 크기가 아닌 압축된 잠재 해상도(latent resolution)에서 작동함으로써 메모리를 최대 55배 적게 사용합니다.
  • 연산 안정성: 경쟁 모델들은 새로운 프레임이 추가될 때마다 리소스 요구량이 증가하는 반면, Mirage의 프레임당 연산 비용은 거의 일정하게 유지됩니다.

탐색 가능한 AI 환경의 미래

Mirage는 정적인 실내 환경에는 매우 효과적이지만, 연구진은 현재의 한계점도 언급했습니다. 기하학적 무결성을 유지하기 위해 움직이는 객체들을 필터링하기 때문에, 역동적인 콘텐츠가 많은 복잡한 장면에서는 최적화가 덜 이루어집니다. 역동적인 콘텐츠의 저장 문제를 해결하는 것이 이 팀의 다음 과제입니다.

업계가 단일 클립 생성(Google의 Veo와 같은 방식)에서 완전히 상호작용이 가능한 탐색형 환경(Google DeepMind의 Genie와 같은 방식)으로 이동함에 따라, Mirage는 AI가 시뮬레이션하는 세계를 어떻게 "기억"할 수 있는지에 대한 중요한 청사진을 제시합니다.

핵심 요약

  • 픽셀보다 잠재 공간(Latent): Mirage는 3D 공간 메모리를 모델의 내부 잠재 공간(latent space)에 직접 저장함으로써 RGB 포인트 클라우드의 연산 병목 현상을 우회합니다.
  • 압도적인 효율성 향상: 이 모델은 기존의 색상 기반 메모리 시스템과 비교했을 때 최대 10.57배 빠른 생성 속도를 달성하고 메모리를 55배 적게 사용합니다.
  • 공간적 일관성: 역동적인 객체를 필터링하고 정적인 기하학적 구조에 집중함으로써, Mirage는 길고 복잡한 카메라 경로 및 폐쇄 루프 이동 중에도 안정적인 환경을 유지합니다.