Microsoft Mirage: Giải quyết vấn đề bộ nhớ không gian trong video AI

Các mô hình thế giới video đang phát triển từ những trình tạo clip đơn giản thành các bộ mô phỏng tinh vi, nhưng chúng thường gặp phải tình trạng "mất trí nhớ không gian". Microsoft Research đã công bố Mirage, một mô hình thế giới video đột phá giúp duy trì sự hiểu biết 3D nhất quán về môi trường, đảm bảo rằng các vật thể và bố cục vẫn giữ nguyên ngay cả trong các thao tác điều khiển camera phức tạp.

Vượt qua nút thắt cổ chai bộ nhớ dựa trên pixel

Các hệ thống tiên tiến nhất hiện nay như Voyager, WonderWorld và Spatia cố gắng giải quyết tính nhất quán không gian bằng cách sử dụng các đám mây điểm 3D được cấu thành từ dữ liệu màu RGB. Mặc dù hiệu quả, các phương pháp này tạo ra một "nút thắt cổ chai kép": chúng đòi hỏi sức mạnh tính toán khổng lồ để kết xuất các đám mây điểm và gặp phải tình trạng rò rỉ thông tin mỗi khi dữ liệu được chuyển đổi giữa không gian pixel và không gian đặc trưng nội bộ của mô hình.

Mirage tạo ra một sự thay đổi mang tính bước ngoặt bằng cách sử dụng Latent Spatial Memory. Thay vì lưu trữ các điểm màu có thể nhìn thấy, Mirage lưu trữ các đặc trưng hình ảnh nội bộ mà các mô hình khuếch tán đã sử dụng. Bằng cách ánh xạ trực tiếp các đặc trưng này vào không gian 3D, mô hình có thể chiếu bộ nhớ lên một góc nhìn camera mục tiêu và chuyển nó cho bộ tạo mà không cần vòng lặp kết xuất và mã hóa tốn kém như các phiên bản tiền nhiệm.

Kiến trúc kỹ thuật: Xây dựng trên nền tảng Wan2.2

Các nhà nghiên cứu đã phát triển Mirage bằng cách xây dựng dựa trên mô hình video mã nguồn mở Wan2.2 của Alibaba. Để tích hợp nhận thức không gian mới này, họ đã triển khai một mô-đun bổ sung chuyên dụng và sử dụng các LoRA (Low-Rank Adaptation) adapters để tinh chỉnh.

Hệ thống hoạt động theo từng phân đoạn, khởi tạo bộ nhớ đệm tiềm ẩn từ một khung hình ban đầu. Để đảm bảo bộ nhớ luôn ổn định, Mirage sử dụng một cơ chế lọc tinh vi. Trước khi ghi vào bộ nhớ đệm, hệ thống sẽ loại bỏ các vật thể đang chuyển động và bầu trời, đảm bảo rằng chỉ có các cấu trúc hình học tĩnh và đáng tin cậy được lưu trữ trong bộ nhớ dài hạn. Điều này giúp ngăn chặn hiện tượng "bóng ma" (ghosting) hoặc các biến dạng hình học gây ra bởi các yếu tố động.

Đánh giá hiệu quả và hiệu suất

Những cải thiện về hiệu suất của Mirage là rất đáng kể ở cả độ chính xác và quản lý tài nguyên. Trên WorldScore benchmark, Mirage đã vượt qua Spatia, vốn dựa trên bộ nhớ dựa trên màu sắc, và vượt xa các trình tạo video tổng quát như Wan2.1 và CogVideoX.

Trong các thử nghiệm "vòng lặp kín" (closed-loop) sử dụng tập dữ liệu RealEstate10K—nơi camera quay trở lại điểm bắt đầu—Mirage đã chứng minh khả năng vượt trội trong việc duy trì tính nhất quán của bề mặt và cấu trúc không gian. Đáng chú ý nhất, Mirage giải quyết được các vấn đề về mở rộng quy mô (scaling issues) vốn đang gây khó khăn cho các mô hình khác:

  • Tốc độ: Nó cung cấp tốc độ tạo nhanh hơn tới 10,57 lần so với các đối thủ dựa trên màu sắc.
  • Hiệu quả bộ nhớ: Nó sử dụng ít bộ nhớ hơn tới 55 lần bằng cách hoạt động ở độ phân giải tiềm ẩn (latent resolution) nhỏ gọn thay vì kích thước toàn bộ pixel.
  • Tính ổn định tính toán: Trong khi nhu cầu tài nguyên của các mô hình đối thủ tăng dần theo từng khung hình mới, chi phí tính toán trên mỗi khung hình của Mirage vẫn duy trì ở mức gần như không đổi.

Tương lai của các môi trường AI có thể điều hướng

Mặc dù Mirage cực kỳ hiệu quả đối với các không gian nội thất tĩnh, các nhà nghiên cứu đã lưu ý một hạn chế hiện tại: vì các vật thể chuyển động bị loại bỏ để duy trì tính toàn vẹn về mặt hình học, nên các cảnh quay bận rộn với nội dung động cao sẽ ít được tối ưu hóa hơn. Việc giải quyết vấn đề lưu trữ nội dung động vẫn là ranh giới tiếp theo mà nhóm nghiên cứu hướng tới.

Khi ngành công nghiệp chuyển dịch từ việc tạo video đơn lẻ (như Veo của Google) sang các môi trường tương tác và điều hướng hoàn toàn (như Genie của Google DeepMind), Mirage cung cấp một bản thiết kế quan trọng về cách AI có thể "ghi nhớ" thế giới mà nó đang mô phỏng.

Những điểm chính cần lưu ý

  • Ưu tiên Latent thay vì Pixel: Mirage vượt qua nút thắt cổ chai về tính toán của các đám mây điểm RGB bằng cách lưu trữ bộ nhớ không gian 3D trực tiếp trong không gian tiềm ẩn (latent space) nội bộ của mô hình.
  • Cải thiện hiệu suất vượt trội: Mô hình đạt tốc độ tạo nhanh hơn tới 10,57 lần và sử dụng ít bộ nhớ hơn 55 lần so với các hệ thống bộ nhớ dựa trên màu sắc truyền thống.
  • Tính nhất quán không gian: Bằng cách lọc bỏ các vật thể động và tập trung vào hình học tĩnh, Mirage duy trì môi trường ổn định trong suốt các đường dẫn camera dài, phức tạp và các chuyển động vòng lặp kín.