𝗧𝘄𝗼 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗦𝘁𝗲𝗽𝘀 𝗥𝗲𝗮𝗰𝗵 𝟯𝟭 𝗙𝗣𝗦

Translated for your language. Read the original.

AI-assisted draft.

৪ দিন আগে1min read

দুটি ডিফিউশন স্টেপেই মিলছে ৩১ FPS

লিপ সিঙ্ক (lip sync)-এর জন্য ডিফিউশন মডেলগুলো অবশেষে রিয়েল-টাইম গতিতে পৌঁছেছে।

বেশিরভাগ মানুষ মনে করেন ডিফিউশন কার্যকর করতে ডজন ডজন স্টেপ প্রয়োজন। নতুন গবেষণা দেখাচ্ছে যে মাত্র দুটি ধাপই যথেষ্ট।

Lip Forcing পদ্ধতিটি পাইপলাইনের কাজের ধরন বদলে দেয়। এটি কেবল মডেলটিকে বড় করে না, বরং প্রক্রিয়াটিকে আরও বুদ্ধিদীপ্ত করে তোলে।

পুরনো সিস্টেমগুলোতে ৫০টিরও বেশি স্টেপ প্রয়োজন হতো। এর ফলে দীর্ঘ বিলম্ব হতো, যার কারণে লাইভ ইন্টারঅ্যাকশনের জন্য এগুলো ব্যবহার করা সম্ভব ছিল না।

নতুন 1.3B student মডেলটি ৩১ FPS গতি অর্জন করেছে। এটি একই আকারের পূর্ববর্তী মডেলগুলোর তুলনায় ১৭.৬ গুণ দ্রুত।

এটি কীভাবে কাজ করে?

এটি একটি টু-স্টেপ (two-step) ইনফারেন্স শিডিউল ব্যবহার করে।
এটি টেস্টিংয়ের সময় classifier-free guidance সরিয়ে ফেলে।
অডিও এবং ভিডিওর সামঞ্জস্য বজায় রাখতে এটি একটি Sync-Window DMD ব্যবহার করে।

এই গতির বিনিময়ে ফিডেলিটি (fidelity)-তে সামান্য ঘাটতি দেখা দেয়। তবে সিনক্রোনাইজেশন বা সামঞ্জস্যতা উচ্চ পর্যায়ে থাকে।

এর সীমাবদ্ধতাগুলো স্পষ্ট।

এটি ভিডিওর ছোট ছোট অংশে (chunks) কাজ করে, পুরো সিকোয়েন্সের ওপর একসাথে নয়।
প্রশিক্ষণের জন্য এর একটি বড় teacher মডেল প্রয়োজন।
এটি বর্তমানে শুধুমাত্র কথা বলা মুখের ওপর কাজ করে।

লিপ সিঙ্কের জন্য যদি দুটি স্টেপ কাজ করে, তবে অন্যান্য ভিডিও মডেলগুলোরও এই পথ অনুসরণ করা উচিত। আমরা ভারী মডেলগুলোকে হালকা ওজনের (lightweight) student মডেল দিয়ে প্রতিস্থাপন করতে পারি। এটি লাইভ স্ট্রিমিং ফিল্টার এবং অন-ডিভাইস অ্যানিমেশনের পথ প্রশস্ত করবে।

আমরা শীঘ্রই মাত্র একটি স্টেপ বিশিষ্ট মডেল দেখতে পেতে পারি। এটি ভিডিও জেনারেশনকে তাৎক্ষণিক করে তুলবে।

উৎস: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

𝗧𝘄𝗼 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗦𝘁𝗲𝗽𝘀 𝗥𝗲𝗮𝗰𝗵 𝟯𝟭 𝗙𝗣𝗦

Continue reading

ডিরেক্ট ইনভার্সন: ডিফিউশন এডিটিং উন্নত করা

দ্রুত বাক্য শেখার জন্য ডিসকোর্স-ভিত্তিক উদ্দেশ্যসমূহ

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

DiffusionGemma: প্রতি সেকেন্ডে ১,০০০ টোকেন

𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅