DiffusionGemma: 1,000 توكن في الثانية
تعمل معظم النماذج اللغوية كلمة بكلمة، حيث تنتقل من اليسار إلى اليمين. وهذا يضع حداً للسرعة لأن النموذج يجب أن ينتظر انتهاء كل كلمة قبل البدء في الكلمة التالية.
لقد غيرت Google DeepMind هذا الأمر باستخدام DiffusionGemma.
بدلاً من الكتابة المتسلسلة، يستخدم النموذج عملية إزالة الضجيج (denoising). حيث يأخذ كتلة تصل إلى 256 توكن ويقوم بتحسينها جميعاً في وقت واحد. يحقق هذا النهج أكثر من 1,000 توكن في الثانية على وحدة NVIDIA H100 واحدة، وهو ما يعادل أربعة أضعاف سرعة النماذج القياسية.
كيف يعمل:
- يبدأ النموذج بكتلة من التوكنات المؤقتة (placeholder tokens).
- يقوم بإجراء عدة تمريرات لتنظيف هذه التوكنات المؤقتة.
- ينظر كل توكن إلى كل توكن آخر في الكتلة في نفس الوقت.
- تساعد هذه الرؤية ثنائية الاتجاه النموذج على فهم السياق من كلا الجانبين.
أداء الأجهزة:
• NVIDIA H100: +1,000 توكن/ثانية • NVIDIA DGX Station: ما يصل إلى 2,000 توكن/ثانية • GeForce RTX 5090: ~700 توكن/ثانية • الحاجة إلى VRAM: ~18 جيجابايت عند استخدام التكميم (quantized)
أين يُستخدم:
يتفوق DiffusionGemma في الإعدادات المحلية. ففي السحابة، تقوم الشركات بتجميع العديد من المستخدمين معاً للحفاظ على الكفاءة، أما على جهاز الكمبيوتر الخاص بك، فغالباً ما تظل وحدة معالجة الرسومات (GPU) خاملة بين الكلمات. يحل DiffusionGemma هذه المشكلة عن طريق تحويل اختناقات الذاكرة إلى مهام حوسبة خام.
استخدمه من أجل:
- إكمال الكود (Code infilling): إضافة كود في منتصف دالة.
- تحرير النصوص: تغيير جملة داخل فقرة.
- المهام المقيدة: حل الألغاز أو المسائل الرياضية حيث يجب أن تتوافق الكتلة بأكملها معاً.
المقايضة هي الجودة. تظهر الاختبارات المرجعية (Benchmarks) أن DiffusionGemma يسجل درجات أقل من Gemma 4 القياسي في الاستنتاج والبرمجة. فاللغة أصعب في عملية الانتشار (diffusion) من الصور لأن كلمة واحدة خاطئة يمكن أن تفسد جملة كاملة.
الحكم النهائي:
استخدم DiffusionGemma إذا كنت بحاجة إلى السرعة على الأجهزة المحلية. واستخدم Gemma 4 القياسي إذا كنت بحاجة إلى أعلى دقة واستنتاج عميق.
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi