iLLaDA من ByteDance: طفرة في نماذج اللغة الانتشارية (Diffusion Language Models)

قد يواجه عصر توليد النصوص بالتسلسل الذاتي (autoregressive) أول تحدٍ حقيقي له مع كشف الباحثين من ByteDance وجامعة Renmin عن iLLaDA. يثبت هذا النموذج الجديد المكون من 8 مليارات معلمة (8B parameter) أن البنى القائمة على الانتشار (diffusion-based architectures) يمكنها التنافس وجهاً لوجه مع نماذج Transformer القياسية في الصناعة.

تجاوز التوليد بالتسلسل الذاتي

تعتمد معظم النماذج اللغوية الكبيرة (LLMs) الحديثة، بما في ذلك GPT-4 وClaude، على التوليد بالتسلسل الذاتي. تتنبأ هذه العملية بالنص رمزاً تلو الآخر (one token at a time)، وتتحرك بدقة من اليسار إلى اليمين. في المقابل، يستخدم iLLaDA نهج الانتشار (diffusion approach)، بشكل مشابه لكيفية عمل مولدات الصور بالذكاء الاصطناعي مثل Stable Diffusion.

بدلاً من التنبؤ المتسلسل، يبدأ iLLaDA بتسلسل من العناصر النائبة المقنعة (masked placeholders) ويقوم بتحسينها من خلال عدة تمريرات متوازية. تسمح هذه العملية ثنائية الاتجاه (bidirectional process) لكل موضع في التسلسل بالانتباه إلى كل موضع آخر في آن واحد، مما قد يوفر طريقة مختلفة جذرياً للتعامل مع السياق والاستنتاج.

iLLaDA مقابل Qwen2.5: تحليل الأداء

كان الهدف الأساسي لمشروع iLLaDA هو تحديد ما إذا كان بإمكان نموذج انتشار مبني من الصفر أن يضاهي جودة النماذج ذات التسلسل الذاتي الراسخة. والنتائج مذهلة؛ فبعد تدريبه مسبقاً على كم هائل يبلغ 12 تريليون رمز (token)، حقق نموذج iLLaDA-Base متوسط درجة اختبار معياري بلغت 63.9، متفوقاً بفارق ضئيل على نموذج Qwen2.5 7B الذي يعمل بالتسلسل الذاتي والذي سجل 63.3.

أظهر النموذج قوة خاصة في مجالات محددة:

  • الاستنتاج (BBH): سجل iLLaDA 71.3، متفوقاً بشكل كبير على نموذج الانتشار Dream 7B.
  • الرياضيات (GSM8K): وصل iLLaDA إلى 81.9، متجاوزاً درجة Qwen2.5 7B البالغة 78.9.
  • العلوم (ARC-C): حقق iLLaDA 60.8، مقارنة بـ 51.5 لنموذج Qwen2.5.

وبينما يعد iLLaDA-Base تنافسياً للغاية، لا تزال هناك فجوة على مستوى النماذج المضبوطة للتعليمات (instruction-tuned). فقد سجل iLLaDA-Instruct 67.1، بينما وصل Qwen2.5 7B Instruct إلى 77.1. ويعزو الباحثون هذا الفرق إلى عمليات التعلم التعزيزي والمواءمة (alignment) المكثفة المستخدمة في سلسلة Qwen، بالإضافة إلى ميل نماذج الانتشار أحياناً إلى الدخول في حلقات استنتاج (reasoning loops) أثناء المهام المعقدة.

مسار جديد لبنية النماذج

يمثل iLLaDA اتجاهاً استراتيجياً مختلفاً عن DiffusionGemma من Google DeepMind. فبينما بُني DiffusionGemma على بنية "خليط الخبراء" (Mixture-of-Experts - MoE) مكونة من 25 مليار معلمة لإعطاء الأولوية للسرعة وزمن الاستجابة المنخفض، فإن iLLaDA هو نموذج كثيف (dense) بـ 8 مليارات معلمة تم تدريبه من الصفر لإعطاء الأولوية للقدرة الخام.

من خلال إثبات أن نموذج الانتشار يمكنه مضاهاة الأداء "الأساسي" لنموذج التسلسل الذاتي دون وراثة نقطة فحص (checkpoint) موجودة مسبقاً، فتحت ByteDance الباب أمام فئة جديدة من النماذج اللغوية غير الخطية. ومع توجه الصناعة نحو أجهزة أكثر كفاءة وتخصصاً، قد توفر الطبيعة ثنائية الاتجاه لنماذج الانتشار المرونة الهيكلية اللازمة للجيل القادم من الذكاء الاصطناعي.

النقاط الرئيسية

  • تحول في البنية: يستخدم iLLaDA عملية انتشار ثنائية الاتجاه بدلاً من طريقة التسلسل الذاتي القياسية من اليسار إلى اليمين المستخدمة في GPT وQwen.
  • نتائج تنافسية: على المستوى الأساسي، يتفوق iLLaDA 8B على Qwen2.5 7B في عدة فئات، بما في ذلك الرياضيات (GSM8K) والعلوم (ARC-C).
  • فجوة التعليمات: رغم ارتفاع القدرات الأساسية، يتخلف iLLaDA حالياً عن نماذج التسلسل الذاتي في مهام اتباع التعليمات بسبب مواءمة التعلم التعزيزي الأقل تقدماً.