Microsoft Mirage: AI ভিডিওতে স্পেশাল মেমরি (Spatial Memory) সমস্যার সমাধান

ভিডিও ওয়ার্ল্ড মডেলগুলো সাধারণ ক্লিপ জেনারেটর থেকে উন্নত সিমুলেটরে রূপান্তরিত হচ্ছে, তবুও এগুলো প্রায়শই "স্পেশাল অ্যামনেসিয়া" (spatial amnesia) বা স্থানিক বিস্মৃতির সমস্যায় ভোগে। Microsoft Research সম্প্রতি Mirage উন্মোচন করেছে, যা একটি যুগান্তকারী ভিডিও ওয়ার্ল্ড মডেল। এটি পরিবেশের একটি স্থায়ী 3D ধারণা বজায় রাখে, যা নিশ্চিত করে যে জটিল ক্যামেরা মুভমেন্টের মধ্যেও বস্তু এবং লেআউটগুলো সামঞ্জস্যপূর্ণ থাকে।

পিক্সেল-ভিত্তিক মেমরি বটleneck কাটিয়ে ওঠা

Voyager, WonderWorld এবং Spatia-এর মতো বর্তমান অত্যাধুনিক সিস্টেমগুলো RGB কালার ডেটা দিয়ে গঠিত 3D পয়েন্ট ক্লাউড ব্যবহার করে স্পেশাল কনসিস্টেন্সি বা স্থানিক সামঞ্জস্য বজায় রাখার চেষ্টা করে। যদিও এগুলো কার্যকর, তবে এই পদ্ধতিগুলো একটি "ডাবল বটleneck" বা দ্বৈত প্রতিবন্ধকতা তৈরি করে: পয়েন্ট ক্লাউড রেন্ডার করার জন্য প্রচুর কম্পিউটেশনাল পাওয়ারের প্রয়োজন হয় এবং প্রতিবার যখন ডেটা পিক্সেল স্পেস থেকে মডেলের অভ্যন্তরীণ ফিচার স্পেসে রূপান্তরিত হয়, তখন তথ্য ক্ষয় বা ইনফরমেশন লিকেজ ঘটে।

Mirage Latent Spatial Memory ব্যবহারের মাধ্যমে একটি আমূল পরিবর্তন (paradigm shift) নিয়ে এসেছে। দৃশ্যমান কালার পয়েন্টগুলো সংরক্ষণ করার পরিবর্তে, Mirage সেই অভ্যন্তরীণ ইমেজ ফিচারগুলো সংরক্ষণ করে যা ডিফিউশন মডেলগুলো ইতিমধ্যে ব্যবহার করে থাকে। এই ফিচারগুলোকে সরাসরি 3D স্পেসে ম্যাপিং করার মাধ্যমে, মডেলটি একটি টার্গেট ক্যামেরা ভিউতে মেমরি প্রজেক্ট করতে পারে এবং পূর্ববর্তী মডেলগুলোর মতো ব্যয়বহুল রেন্ডার-অ্যান্ড-এনকোড লুপ ছাড়াই তা জেনারেটরের কাছে পৌঁছে দিতে পারে।

টেকনিক্যাল আর্কিটেকচার: Wan2.2-এর ওপর ভিত্তি করে তৈরি

গবেষকরা Alibaba-এর ওপেন-সোর্স ভিডিও মডেল Wan2.2-এর ওপর ভিত্তি করে Mirage তৈরি করেছেন। এই নতুন স্পেশাল অ্যাওয়ারনেস বা স্থানিক সচেতনতা যুক্ত করার জন্য, তারা একটি বিশেষায়িত অ্যাড-অন মডিউল প্রয়োগ করেছেন এবং ফাইন-টিউনিংয়ের জন্য LoRA (Low-Rank Adaptation) adapters ব্যবহার করেছেন।

সিস্টেমটি সেগমেন্ট আকারে কাজ করে, যা একটি প্রাথমিক ফ্রেম থেকে ল্যাটেন্ট ক্যাশ (latent cache) তৈরি করে। মেমরি স্থিতিশীল রাখা নিশ্চিত করতে Mirage একটি উন্নত ফিল্টারিং মেকানিজম ব্যবহার করে। ক্যাশে ডেটা লেখার আগে, সিস্টেমটি চলমান বস্তু এবং আকাশকে বাদ দিয়ে দেয়, যা নিশ্চিত করে যে শুধুমাত্র স্থির এবং নির্ভরযোগ্য জ্যামিতি দীর্ঘমেয়াদী মেমরিতে সংরক্ষিত হয়। এটি ডায়নামিক এলিমেন্ট বা গতিশীল উপাদানের কারণে সৃষ্ট "ঘোস্টিং" (ghosting) বা জ্যামিতিক বিকৃতি রোধ করে।

দক্ষতা এবং পারফরম্যান্সের বেঞ্চমার্কিং

নির্ভুলতা এবং রিসোর্স ম্যানেজমেন্ট—উভয় ক্ষেত্রেই Mirage-এর পারফরম্যান্সের উন্নতি উল্লেখযোগ্য। WorldScore benchmark-এ Mirage, কালার-ভিত্তিক মেমরির ওপর নির্ভরশীল Spatia-কে ছাড়িয়ে গেছে এবং Wan2.1 ও CogVideoX-এর মতো সাধারণ ভিডিও জেনারেটরগুলোর তুলনায় অনেক উন্নত ফলাফল দেখিয়েছে।

RealEstate10K dataset ব্যবহার করে করা "closed-loop" পরীক্ষাগুলোতে—যেখানে একটি ক্যামেরা তার শুরুর বিন্দুতে ফিরে আসে—Mirage পৃষ্ঠের ধারাবাহিকতা (surface consistency) এবং স্থানিক কাঠামো (spatial structure) বজায় রাখার ক্ষেত্রে উন্নত সক্ষমতা প্রদর্শন করেছে। সবচেয়ে উল্লেখযোগ্যভাবে, Mirage সেই স্কেলিং সমস্যাগুলো সমাধান করে যা অন্যান্য মডেলগুলোতে দেখা যায়:

  • গতি: এটি রঙ-ভিত্তিক প্রতিদ্বন্দ্বী মডেলগুলোর তুলনায় 10.57x দ্রুত জেনারেশন প্রদান করে।
  • মেমরি দক্ষতা: এটি ফুল-পিক্সেল সাইজের পরিবর্তে একটি কম্প্যাক্ট ল্যাটেন্ট রেজোলিউশনে (compact latent resolution) কাজ করার মাধ্যমে 55x কম মেমরি ব্যবহার করে।
  • কম্পিউট স্ট্যাবিলিটি: যেখানে প্রতিদ্বন্দ্বী মডেলগুলোর রিসোর্স বা সম্পদের চাহিদা প্রতিটি নতুন ফ্রেমের সাথে বৃদ্ধি পায়, সেখানে Mirage-এর প্রতি ফ্রেমের কম্পিউট খরচ প্রায় অপরিবর্তিত থাকে।

নেভিগেবল AI এনভায়রনমেন্টের ভবিষ্যৎ

Mirage স্থির ইন্টেরিয়রের (static interiors) জন্য অত্যন্ত কার্যকর হলেও, গবেষকরা একটি বর্তমান সীমাবদ্ধতার কথা উল্লেখ করেছেন: জ্যামিতিক অখণ্ডতা (geometric integrity) বজায় রাখার জন্য চলমান বস্তুগুলোকে ফিল্টার করে বাদ দেওয়া হয় বলে, উচ্চ ডায়নামিক কন্টেন্ট সমৃদ্ধ ব্যস্ত দৃশ্যগুলো কম অপ্টিমাইজড। ডায়নামিক কন্টেন্টের স্টোরেজ সমাধান করা এই টিমের জন্য পরবর্তী বড় চ্যালেঞ্জ।

শিল্প যখন সিঙ্গেল-ক্লিপ জেনারেশন (যেমন Google's Veo) থেকে সম্পূর্ণ ইন্টারেক্টিভ এবং নেভিগেবল এনভায়রনমেন্টের (যেমন Google DeepMind's Genie) দিকে অগ্রসর হচ্ছে, Mirage একটি গুরুত্বপূর্ণ ব্লুপ্রিন্ট প্রদান করে যে কীভাবে AI তার সিমুলেট করা বিশ্বকে "মনে রাখতে" পারে।

মূল বিষয়সমূহ

  • পিক্সেলের পরিবর্তে ল্যাটেন্ট: Mirage মডেলের অভ্যন্তরীণ ল্যাটেন্ট স্পেসে (internal latent space) সরাসরি 3D স্থানিক মেমরি সংরক্ষণ করার মাধ্যমে RGB point clouds-এর কম্পিউটেশনাল বটলেনেক কাটিয়ে ওঠে।
  • বিশাল দক্ষতা বৃদ্ধি: প্রথাগত রঙ-ভিত্তিক মেমরি সিস্টেমের তুলনায় এই মডেলটি 10.57x দ্রুত জেনারেশন অর্জন করে এবং 55x কম মেমরি ব্যবহার করে।
  • স্থানিক ধারাবাহিকতা: ডায়নামিক অবজেক্টগুলোকে ফিল্টার করে এবং স্থির জ্যামিতির (static geometry) ওপর ফোকাস করার মাধ্যমে, Mirage দীর্ঘ ও জটিল ক্যামেরা পাথ এবং ক্লোজড-লুপ মুভমেন্টের সময় স্থিতিশীল এনভায়রনমেন্ট বজায় রাখে।