ByteDance-এর iLLaDA: ডিফিউশন ল্যাঙ্গুয়েজ মডেলের ক্ষেত্রে একটি যুগান্তকারী সাফল্য

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialগত সপ্তাহ2min read

ByteDance-এর iLLaDA: ডিফিউশন ল্যাঙ্গুয়েজ মডেলের ক্ষেত্রে একটি যুগান্তকারী সাফল্য

In this article

ByteDance-এর iLLaDA: ডিফিউশন ল্যাঙ্গুয়েজ মডেলে একটি যুগান্তকারী সাফল্য

অটোরিগ্রেসিভ টেক্সট জেনারেশনের যুগ সম্ভবত তার প্রথম গুরুতর চ্যালেঞ্জের মুখোমুখি হতে যাচ্ছে, কারণ ByteDance এবং Renmin University-এর গবেষকরা iLLaDA উন্মোচন করেছেন। এই নতুন 8B প্যারামিটার মডেলটি প্রমাণ করে যে, ডিফিউশন-ভিত্তিক আর্কিটেকচারগুলো ইন্ডাস্ট্রি-স্ট্যান্ডার্ড ট্রান্সফরমার মডেলগুলোর সাথে সরাসরি প্রতিদ্বন্দ্বিতা করতে সক্ষম।

অটোরিগ্রেসিভ জেনারেশনের ঊর্ধ্বে

GPT-4 এবং Claude সহ বেশিরভাগ আধুনিক LLM অটোরিগ্রেসিভ জেনারেশনের ওপর নির্ভর করে। এই প্রক্রিয়াটি বাম থেকে ডানে অগ্রসর হওয়ার মাধ্যমে প্রতিটি টোকেন একে একে প্রেডিক্ট করে। এর বিপরীতে, iLLaDA একটি ডিফিউশন পদ্ধতি ব্যবহার করে, যা অনেকটা Stable Diffusion-এর মতো AI ইমেজ জেনারেটরগুলোর কাজের পদ্ধতির মতো।

সিকোয়েন্সিয়াল প্রেডিকশনের পরিবর্তে, iLLaDA মাস্কড প্লেসহোল্ডারের (masked placeholders) একটি সিকোয়েন্স দিয়ে শুরু হয় এবং একাধিক প্যারালাল পাসের মাধ্যমে সেগুলোকে রিফাইন বা পরিমার্জিত করে। এই দ্বিমুখী (bidirectional) প্রক্রিয়াটি একটি সিকোয়েন্সের প্রতিটি পজিশনকে একই সাথে অন্য প্রতিটি পজিশনের সাথে সংযুক্ত হতে সাহায্য করে, যা সম্ভবত কনটেক্সট এবং রিজনিং (reasoning) হ্যান্ডেল করার জন্য একটি মৌলিকভাবে ভিন্ন পদ্ধতি প্রদান করতে পারে।

iLLaDA বনাম Qwen2.5: পারফরম্যান্স বিশ্লেষণ

iLLaDA প্রজেক্টের প্রাথমিক লক্ষ্য ছিল এটি নির্ধারণ করা যে, একদম শুরু থেকে তৈরি করা একটি ডিফিউশন মডেল প্রতিষ্ঠিত অটোরিগ্রেসিভ মডেলগুলোর মানের সাথে পাল্লা দিতে পারে কি না। এর ফলাফল অত্যন্ত চমকপ্রদ। ১২ ট্রিলিয়ন টোকেনের বিশাল ডেটাসেটে প্রি-ট্রেইন করা iLLaDA-Base মডেলটি গড়ে ৬৩.৯ বেঞ্চমার্ক স্কোর অর্জন করেছে, যা অটোরিগ্রেসিভ Qwen2.5 7B-কে (যার স্কোর ৬৩.৩) সামান্য ব্যবধানে ছাড়িয়ে গেছে।

মডেলটি নির্দিষ্ট কিছু ক্ষেত্রে বিশেষ সক্ষমতা দেখিয়েছে:

Reasoning (BBH): iLLaDA স্কোর করেছে ৭১.৩, যা Dream 7B ডিফিউশন মডেলের তুলনায় উল্লেখযোগ্যভাবে ভালো।
Mathematics (GSM8K): iLLaDA ৮১.৯ স্কোর অর্জন করেছে, যা Qwen2.5 7B-এর ৭৮.৯ স্কোরকে ছাড়িয়ে গেছে।
Science (ARC-C): iLLaDA ৬০.৮ অর্জন করেছে, যেখানে Qwen2.5-এর স্কোর ছিল ৫১.৫।

যদিও iLLaDA-Base অত্যন্ত প্রতিযোগিতামূলক, তবে ইন্সট্রাকশন-টিউনড (instruction-tuned) লেভেলে একটি ব্যবধান রয়ে গেছে। iLLaDA-Instruct স্কোর করেছে ৬৭.১, যেখানে Qwen2.5 7B Instruct পৌঁছেছে ৭৭.১-এ। গবেষকরা এই পার্থক্যের কারণ হিসেবে Qwen সিরিজে ব্যবহৃত নিবিড় রিইনফোর্সমেন্ট লার্নিং এবং অ্যালাইনমেন্ট প্রক্রিয়া এবং জটিল কাজের সময় ডিফিউশন মডেলগুলোর মাঝে মাঝে রিজনিং লুপে (reasoning loops) পড়ার প্রবণতাকে দায়ী করেছেন।

মডেল আর্কিটেকচারের জন্য একটি নতুন পথ

iLLaDA, Google DeepMind-এর DiffusionGemma-এর তুলনায় একটি ভিন্ন কৌশলগত দিক নির্দেশ করে। যেখানে DiffusionGemma-কে লো-ল্যাটেন্সি স্পিড বা দ্রুত গতির ওপর গুরুত্ব দেওয়ার জন্য ২৫-বিলিয়ন প্যারামিটারের Mixture-of-Experts (MoE) ব্যাকবোন দিয়ে তৈরি করা হয়েছিল, সেখানে iLLaDA হলো একটি ডেন্স 8B মডেল যা মূলত এর মৌলিক সক্ষমতার (raw capability) ওপর গুরুত্ব দিয়ে একদম শুরু থেকে প্রশিক্ষণ দেওয়া হয়েছে।

কোনো বিদ্যমান চেকপয়েন্ট (checkpoint) ব্যবহার না করেই একটি ডিফিউশন মডেল কীভাবে একটি অটোরিগ্রেসিভ মডেলের "বেস" পারফরম্যান্সের সাথে পাল্লা দিতে পারে তা প্রমাণ করে, ByteDance নন-লিনিয়ার ল্যাঙ্গুয়েজ মডেলের একটি নতুন দিগন্ত উন্মোচন করেছে। শিল্প জগত যখন আরও দক্ষ এবং বিশেষায়িত হার্ডওয়্যারের দিকে এগিয়ে যাচ্ছে, তখন ডিফিউশন মডেলগুলোর দ্বিমুখী (bidirectional) প্রকৃতি পরবর্তী প্রজন্মের AI-এর জন্য প্রয়োজনীয় আর্কিটেকচারাল নমনীয়তা প্রদান করতে পারে।

মূল বিষয়সমূহ

Architecture Shift: iLLaDA, GPT এবং Qwen-এ ব্যবহৃত স্ট্যান্ডার্ড বাম-থেকে-ডান অটোরিগ্রেসিভ পদ্ধতির পরিবর্তে একটি দ্বিমুখী (bidirectional) ডিফিউশন প্রক্রিয়া ব্যবহার করে।
Competitive Benchmarks: বেস লেভেলে, iLLaDA 8B বেশ কিছু ক্যাটাগরিতে Qwen2.5 7B-কে ছাড়িয়ে গেছে, যার মধ্যে GSM8K গণিত এবং ARC-C বিজ্ঞান অন্তর্ভুক্ত।
Instruction Gap: যদিও এর বেস সক্ষমতা অনেক বেশি, তবুও কম উন্নত রিইনফোর্সমেন্ট লার্নিং অ্যালাইনমেন্টের কারণে ইন্সট্রাকশন-ফলোয়িং (instruction-following) টাস্কগুলোতে iLLaDA বর্তমানে অটোরিগ্রেসিভ মডেলগুলোর চেয়ে পিছিয়ে রয়েছে।

ByteDance-এর iLLaDA: ডিফিউশন ল্যাঙ্গুয়েজ মডেলের ক্ষেত্রে একটি যুগান্তকারী সাফল্য

ByteDance-এর iLLaDA: ডিফিউশন ল্যাঙ্গুয়েজ মডেলে একটি যুগান্তকারী সাফল্য

অটোরিগ্রেসিভ জেনারেশনের ঊর্ধ্বে

iLLaDA বনাম Qwen2.5: পারফরম্যান্স বিশ্লেষণ

মডেল আর্কিটেকচারের জন্য একটি নতুন পথ

মূল বিষয়সমূহ

Continue reading

ByteDance উন্মোচন করল Seedance 2.5: লং ফর্ম এআই ভিডিওর একটি নতুন যুগ

Figma Config 2026: AI জেনারেশন এবং মানুষের নিয়ন্ত্রণের মধ্যে ব্যবধান ঘুচিয়ে আনা

এআই হাইভমাইন্ড ভাঙা: কীভাবে ফ্লিন্ট এলএলএম গ্রুপথিংকিংয়ের মোকাবিলা করছে