ByteDance-এর iLLaDA: ডিফিউশন ল্যাঙ্গুয়েজ মডেলে একটি যুগান্তকারী সাফল্য

অটোরিগ্রেসিভ টেক্সট জেনারেশনের যুগ সম্ভবত তার প্রথম গুরুতর চ্যালেঞ্জের মুখোমুখি হতে যাচ্ছে, কারণ ByteDance এবং Renmin University-এর গবেষকরা iLLaDA উন্মোচন করেছেন। এই নতুন 8B প্যারামিটার মডেলটি প্রমাণ করে যে, ডিফিউশন-ভিত্তিক আর্কিটেকচারগুলো ইন্ডাস্ট্রি-স্ট্যান্ডার্ড ট্রান্সফরমার মডেলগুলোর সাথে সরাসরি প্রতিদ্বন্দ্বিতা করতে সক্ষম।

অটোরিগ্রেসিভ জেনারেশনের ঊর্ধ্বে

GPT-4 এবং Claude সহ বেশিরভাগ আধুনিক LLM অটোরিগ্রেসিভ জেনারেশনের ওপর নির্ভর করে। এই প্রক্রিয়াটি বাম থেকে ডানে অগ্রসর হওয়ার মাধ্যমে প্রতিটি টোকেন একে একে প্রেডিক্ট করে। এর বিপরীতে, iLLaDA একটি ডিফিউশন পদ্ধতি ব্যবহার করে, যা অনেকটা Stable Diffusion-এর মতো AI ইমেজ জেনারেটরগুলোর কাজের পদ্ধতির মতো।

সিকোয়েন্সিয়াল প্রেডিকশনের পরিবর্তে, iLLaDA মাস্কড প্লেসহোল্ডারের (masked placeholders) একটি সিকোয়েন্স দিয়ে শুরু হয় এবং একাধিক প্যারালাল পাসের মাধ্যমে সেগুলোকে রিফাইন বা পরিমার্জিত করে। এই দ্বিমুখী (bidirectional) প্রক্রিয়াটি একটি সিকোয়েন্সের প্রতিটি পজিশনকে একই সাথে অন্য প্রতিটি পজিশনের সাথে সংযুক্ত হতে সাহায্য করে, যা সম্ভবত কনটেক্সট এবং রিজনিং (reasoning) হ্যান্ডেল করার জন্য একটি মৌলিকভাবে ভিন্ন পদ্ধতি প্রদান করতে পারে।

iLLaDA বনাম Qwen2.5: পারফরম্যান্স বিশ্লেষণ

iLLaDA প্রজেক্টের প্রাথমিক লক্ষ্য ছিল এটি নির্ধারণ করা যে, একদম শুরু থেকে তৈরি করা একটি ডিফিউশন মডেল প্রতিষ্ঠিত অটোরিগ্রেসিভ মডেলগুলোর মানের সাথে পাল্লা দিতে পারে কি না। এর ফলাফল অত্যন্ত চমকপ্রদ। ১২ ট্রিলিয়ন টোকেনের বিশাল ডেটাসেটে প্রি-ট্রেইন করা iLLaDA-Base মডেলটি গড়ে ৬৩.৯ বেঞ্চমার্ক স্কোর অর্জন করেছে, যা অটোরিগ্রেসিভ Qwen2.5 7B-কে (যার স্কোর ৬৩.৩) সামান্য ব্যবধানে ছাড়িয়ে গেছে।

মডেলটি নির্দিষ্ট কিছু ক্ষেত্রে বিশেষ সক্ষমতা দেখিয়েছে:

  • Reasoning (BBH): iLLaDA স্কোর করেছে ৭১.৩, যা Dream 7B ডিফিউশন মডেলের তুলনায় উল্লেখযোগ্যভাবে ভালো।
  • Mathematics (GSM8K): iLLaDA ৮১.৯ স্কোর অর্জন করেছে, যা Qwen2.5 7B-এর ৭৮.৯ স্কোরকে ছাড়িয়ে গেছে।
  • Science (ARC-C): iLLaDA ৬০.৮ অর্জন করেছে, যেখানে Qwen2.5-এর স্কোর ছিল ৫১.৫।

যদিও iLLaDA-Base অত্যন্ত প্রতিযোগিতামূলক, তবে ইন্সট্রাকশন-টিউনড (instruction-tuned) লেভেলে একটি ব্যবধান রয়ে গেছে। iLLaDA-Instruct স্কোর করেছে ৬৭.১, যেখানে Qwen2.5 7B Instruct পৌঁছেছে ৭৭.১-এ। গবেষকরা এই পার্থক্যের কারণ হিসেবে Qwen সিরিজে ব্যবহৃত নিবিড় রিইনফোর্সমেন্ট লার্নিং এবং অ্যালাইনমেন্ট প্রক্রিয়া এবং জটিল কাজের সময় ডিফিউশন মডেলগুলোর মাঝে মাঝে রিজনিং লুপে (reasoning loops) পড়ার প্রবণতাকে দায়ী করেছেন।

মডেল আর্কিটেকচারের জন্য একটি নতুন পথ

iLLaDA, Google DeepMind-এর DiffusionGemma-এর তুলনায় একটি ভিন্ন কৌশলগত দিক নির্দেশ করে। যেখানে DiffusionGemma-কে লো-ল্যাটেন্সি স্পিড বা দ্রুত গতির ওপর গুরুত্ব দেওয়ার জন্য ২৫-বিলিয়ন প্যারামিটারের Mixture-of-Experts (MoE) ব্যাকবোন দিয়ে তৈরি করা হয়েছিল, সেখানে iLLaDA হলো একটি ডেন্স 8B মডেল যা মূলত এর মৌলিক সক্ষমতার (raw capability) ওপর গুরুত্ব দিয়ে একদম শুরু থেকে প্রশিক্ষণ দেওয়া হয়েছে।

কোনো বিদ্যমান চেকপয়েন্ট (checkpoint) ব্যবহার না করেই একটি ডিফিউশন মডেল কীভাবে একটি অটোরিগ্রেসিভ মডেলের "বেস" পারফরম্যান্সের সাথে পাল্লা দিতে পারে তা প্রমাণ করে, ByteDance নন-লিনিয়ার ল্যাঙ্গুয়েজ মডেলের একটি নতুন দিগন্ত উন্মোচন করেছে। শিল্প জগত যখন আরও দক্ষ এবং বিশেষায়িত হার্ডওয়্যারের দিকে এগিয়ে যাচ্ছে, তখন ডিফিউশন মডেলগুলোর দ্বিমুখী (bidirectional) প্রকৃতি পরবর্তী প্রজন্মের AI-এর জন্য প্রয়োজনীয় আর্কিটেকচারাল নমনীয়তা প্রদান করতে পারে।

মূল বিষয়সমূহ

  • Architecture Shift: iLLaDA, GPT এবং Qwen-এ ব্যবহৃত স্ট্যান্ডার্ড বাম-থেকে-ডান অটোরিগ্রেসিভ পদ্ধতির পরিবর্তে একটি দ্বিমুখী (bidirectional) ডিফিউশন প্রক্রিয়া ব্যবহার করে।
  • Competitive Benchmarks: বেস লেভেলে, iLLaDA 8B বেশ কিছু ক্যাটাগরিতে Qwen2.5 7B-কে ছাড়িয়ে গেছে, যার মধ্যে GSM8K গণিত এবং ARC-C বিজ্ঞান অন্তর্ভুক্ত।
  • Instruction Gap: যদিও এর বেস সক্ষমতা অনেক বেশি, তবুও কম উন্নত রিইনফোর্সমেন্ট লার্নিং অ্যালাইনমেন্টের কারণে ইন্সট্রাকশন-ফলোয়িং (instruction-following) টাস্কগুলোতে iLLaDA বর্তমানে অটোরিগ্রেসিভ মডেলগুলোর চেয়ে পিছিয়ে রয়েছে।