দুটি ডিফিউশন স্টেপেই মিলছে ৩১ FPS

লিপ সিঙ্ক (lip sync)-এর জন্য ডিফিউশন মডেলগুলো অবশেষে রিয়েল-টাইম গতিতে পৌঁছেছে।

বেশিরভাগ মানুষ মনে করেন ডিফিউশন কার্যকর করতে ডজন ডজন স্টেপ প্রয়োজন। নতুন গবেষণা দেখাচ্ছে যে মাত্র দুটি ধাপই যথেষ্ট।

Lip Forcing পদ্ধতিটি পাইপলাইনের কাজের ধরন বদলে দেয়। এটি কেবল মডেলটিকে বড় করে না, বরং প্রক্রিয়াটিকে আরও বুদ্ধিদীপ্ত করে তোলে।

পুরনো সিস্টেমগুলোতে ৫০টিরও বেশি স্টেপ প্রয়োজন হতো। এর ফলে দীর্ঘ বিলম্ব হতো, যার কারণে লাইভ ইন্টারঅ্যাকশনের জন্য এগুলো ব্যবহার করা সম্ভব ছিল না।

নতুন 1.3B student মডেলটি ৩১ FPS গতি অর্জন করেছে। এটি একই আকারের পূর্ববর্তী মডেলগুলোর তুলনায় ১৭.৬ গুণ দ্রুত।

এটি কীভাবে কাজ করে?

  • এটি একটি টু-স্টেপ (two-step) ইনফারেন্স শিডিউল ব্যবহার করে।
  • এটি টেস্টিংয়ের সময় classifier-free guidance সরিয়ে ফেলে।
  • অডিও এবং ভিডিওর সামঞ্জস্য বজায় রাখতে এটি একটি Sync-Window DMD ব্যবহার করে।

এই গতির বিনিময়ে ফিডেলিটি (fidelity)-তে সামান্য ঘাটতি দেখা দেয়। তবে সিনক্রোনাইজেশন বা সামঞ্জস্যতা উচ্চ পর্যায়ে থাকে।

এর সীমাবদ্ধতাগুলো স্পষ্ট।

  • এটি ভিডিওর ছোট ছোট অংশে (chunks) কাজ করে, পুরো সিকোয়েন্সের ওপর একসাথে নয়।
  • প্রশিক্ষণের জন্য এর একটি বড় teacher মডেল প্রয়োজন।
  • এটি বর্তমানে শুধুমাত্র কথা বলা মুখের ওপর কাজ করে।

লিপ সিঙ্কের জন্য যদি দুটি স্টেপ কাজ করে, তবে অন্যান্য ভিডিও মডেলগুলোরও এই পথ অনুসরণ করা উচিত। আমরা ভারী মডেলগুলোকে হালকা ওজনের (lightweight) student মডেল দিয়ে প্রতিস্থাপন করতে পারি। এটি লাইভ স্ট্রিমিং ফিল্টার এবং অন-ডিভাইস অ্যানিমেশনের পথ প্রশস্ত করবে।

আমরা শীঘ্রই মাত্র একটি স্টেপ বিশিষ্ট মডেল দেখতে পেতে পারি। এটি ভিডিও জেনারেশনকে তাৎক্ষণিক করে তুলবে।

উৎস: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi