ByteDance کا iLLaDA: ڈیفیوژن لینگویج ماڈلز میں ایک بڑی پیش رفت
آٹو ریگریسو (autoregressive) ٹیکسٹ جنریشن کا دور اپنے پہلے سنجیدہ چیلنجر کا سامنا کر رہا ہے کیونکہ ByteDance اور Renmin University کے محققین نے iLLaDA کو منظرِ عام پر لایا ہے۔ یہ نیا 8B پیرامیٹر ماڈل ثابت کرتا ہے کہ ڈیفیوژن پر مبنی آرکیٹیکچر انڈسٹری کے معیاری ٹرانسفارمر (transformer) ماڈلز کا ڈٹ کر مقابلہ کر سکتے ہیں۔
آٹو ریگریسو جنریشن سے آگے بڑھنا
GPT-4 اور Claude سمیت زیادہ تر جدید LLMs آٹو ریگریسو جنریشن پر انحصار کرتے ہیں۔ یہ عمل ایک وقت میں ایک ٹوکن کی بنیاد پر ٹیکسٹ کی پیش گوئی کرتا ہے، جو سختی سے بائیں سے دائیں کی طرف حرکت کرتا ہے۔ اس کے برعکس، iLLaDA ایک ڈیفیوژن طریقہ کار استعمال کرتا ہے، بالکل اسی طرح جیسے Stable Diffusion جیسے AI امیج جنریٹرز کام کرتے ہیں۔
تسلسل وار پیش گوئی کے بجائے، iLLaDA ماسک شدہ پلیس ہولڈرز (masked placeholders) کے ایک سلسلے سے شروع ہوتا ہے اور متعدد متوازی مراحل کے ذریعے انہیں بہتر بناتا ہے۔ یہ دو طرفہ (bidirectional) عمل ایک سلسلے میں موجود ہر مقام کو بیک وقت دوسرے تمام مقامات سے منسلک ہونے کی اجازت دیتا ہے، جو ممکنہ طور پر سیاق و سباق (context) اور استدلال (reasoning) کو سنبھالنے کا ایک بنیادی طور پر مختلف طریقہ فراہم کرتا ہے۔
iLLaDA بمقابلہ Qwen2.5: کارکردگی کا تجزیہ
iLLaDA پروجیکٹ کا بنیادی مقصد یہ جاننا تھا کہ کیا شروع سے بنایا گیا ایک ڈیفیوژن ماڈل قائم شدہ آٹو ریگریسو ماڈلز کے معیار کا مقابلہ کر سکتا ہے۔ نتائج حیران کن ہیں۔ 12 ٹریلین ٹوکنز پر پری ٹرینڈ (Pretrained) ہونے کے بعد، iLLaDA-Base ماڈل نے اوسط بینچ مارک اسکور 63.9 حاصل کیا، جو آٹو ریگریسو Qwen2.5 7B (جس کا اسکور 63.3 تھا) سے معمولی طور پر آگے نکل گیا۔
ماڈل نے مخصوص شعبوں میں خاص مہارت دکھائی:
- استدلال (BBH): iLLaDA نے 71.3 اسکور کیا، جو Dream 7B ڈیفیوژن ماڈل سے نمایاں طور پر بہتر ہے۔
- ریاضی (GSM8K): iLLaDA نے 81.9 تک رسائی حاصل کی، جو Qwen2.5 7B کے 78.9 اسکور سے زیادہ ہے۔
- سائنس (ARC-C): iLLaDA نے 60.8 حاصل کیا، جبکہ Qwen2.5 کا اسکور 51.5 تھا۔
اگرچہ iLLaDA-Base انتہائی مسابقتی ہے، لیکن انسٹرکشن ٹیونڈ (instruction-tuned) سطح پر اب بھی ایک فرق موجود ہے۔ iLLaDA-Instruct نے 67.1 اسکور کیا، جبکہ Qwen2.5 7B Instruct نے 77.1 حاصل کیا۔ محققین اس فرق کی وجہ Qwen سیریز میں استعمال ہونے والے شدید ری انفورسمنٹ لرننگ (reinforcement learning) اور الائنمنٹ (alignment) کے عمل، اور پیچیدہ کاموں کے دوران ڈیفیوژن ماڈلز کے کبھی کبھار استدلال کے چکروں (reasoning loops) میں پھنس جانے کے رجحان کو قرار دیتے ہیں۔
ماڈل آرکیٹیکچر کے لیے ایک نیا راستہ
iLLaDA، Google DeepMind کے DiffusionGemma کے مقابلے میں ایک مختلف اسٹریٹجک سمت کی نمائندگی کرتا ہے۔ جہاں DiffusionGemma کو کم لیٹنسی (low-latency) رفتار کو ترجیح دینے کے لیے 25 بلین پیرامیٹر والے Mixture-of-Experts (MoE) بیک بون پر بنایا گیا تھا، وہیں iLLaDA ایک ڈینس (dense) 8B ماڈل ہے جسے بنیادی طور پر خام صلاحیت (raw capability) کو ترجیح دینے کے لیے تیار کیا گیا ہے۔
یہ ثابت کر کے کہ ایک ڈیفیوژن ماڈل کسی موجودہ چیک پوائنٹ (checkpoint) کے بغیر آٹو ریگریسو ماڈل کی "بیس" کارکردگی کا مقابلہ کر سکتا ہے، ByteDance نے غیر خطی (non-linear) لینگویج ماڈلز کے ایک نئے طبقے کے لیے دروازہ کھول دیا ہے۔ جیسے جیسے انڈسٹری زیادہ موثر اور مخصوص ہارڈ ویئر کی طرف بڑھ رہی ہے، ڈیفیوژن ماڈلز کی دو طرفہ نوعیت AI کی اگلی نسل کے لیے ضروری آرکیٹیکچرل لچک فراہم کر سکتی ہے۔
اہم نکات
- آرکیٹیکچر میں تبدیلی: iLLaDA، GPT اور Qwen کے ذریعے استعمال ہونے والے معیاری بائیں سے دائیں آٹو ریگریسو طریقے کے بجائے دو طرفہ ڈیفیوژن عمل کا استعمال کرتا ہے۔
- مسابقتی بینچ مارکس: بیس لیول پر، iLLaDA 8B کئی زمروں میں Qwen2.5 7B سے بہتر کارکردگی دکھاتا ہے، بشمول GSM8K ریاضی اور ARC-C سائنس۔
- انسٹرکشن کا فرق: اگرچہ بنیادی صلاحیتیں زیادہ ہیں، لیکن کم جدید ری انفورسمنٹ لرننگ الائنمنٹ کی وجہ سے iLLaDA فی الحال انسٹرکشن فالونگ (instruction-following) کے کاموں میں آٹو ریگریسو ماڈلز سے پیچھے ہے۔
