DiffusionGemma 26B: توليد النصوص بالتوازي

أصدرت Google DeepMind نموذج DiffusionGemma 26B. يستخدم هذا النموذج تقنية الانتشار المنفصل (discrete diffusion) بدلاً من الطريقة التوليدية الذاتية (autoregressive) القياسية.

تقوم معظم النماذج مثل GPT أو Llama بتوليد النص رمزاً تلو الآخر (one token at a time)، حيث يجب عليها إجراء دورة كاملة لكل رمز على حدة، مما يجعلها بطيئة للاستخدام المحلي أو المهام التي تتطلب استجابة فورية.

يعمل DiffusionGemma بشكل مختلف؛ حيث يبدأ بمجموعة مكونة من 256 رمزاً عشوائياً ثم يقوم بتحسينها من خلال دورات متعددة.

لماذا يعد هذا مهماً:

• السرعة: يمكنه الوصول إلى 1,000 رمز في الثانية على وحدة معالجة رسومات H100 GPU، بينما تصل النماذج القياسية إلى 70 رمزاً فقط في الثانية على نفس الأجهزة. • الكفاءة: بدلاً من إجراء 256 دورة لـ 256 رمزاً، فإنه يحتاج فقط إلى حوالي 10 دورات. • استخدام GPU: يستخدم قوة الحوسبة بشكل أكثر فعالية من عرض نطاق الذاكرة (memory bandwidth).

المقايضات:

تأتي هذه السرعة على حساب الجودة؛ حيث يسجل DiffusionGemma درجات أقل في اختبارات الاستدلال والبرمجة مقارنة بنموذج Gemma 4 26B القياسي.

أفضل حالات الاستخدام:

  • إكمال الكود (Code infilling).
  • ملء مخططات JSON.
  • إكمال المستندات المهيكلة.
  • المهام المحلية التي تكون فيها الاستجابة السريعة (low latency) هي الأولوية.

تجنب استخدامه في:

  • واجهات برمجة التطبيقات (APIs) ذات التزامن العالي مع دفعات ضخمة.
  • المهام التي تكون فيها الجودة هي الأولوية الوحيدة.
  • التطبيقات التي تتطلب بث النص كلمة بكلمة.

يستخدم هذا النموذج بنية "خليط من الخبراء" (Mixture-of-Experts - MoE). يحتوي على إجمالي 25.2 مليار معلمة (parameters)، ولكنه يستخدم 3.8 مليار معلمة نشطة فقط في كل خطوة. يمكنك تشغيل نسخة 4-bit على بطاقة RTX 4090 بذاكرة VRAM سعة 24 جيجابايت.

إنه نموذج تجريبي. استخدم Gemma 4 القياسي إذا كنت بحاجة إلى أعلى دقة، واستخدم DiffusionGemma إذا كنت بحاجة إلى سرعة فائقة للتطبيقات المحلية.

المصدر: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi