DiffusionGemma: 1,000 توكن في الثانية

Translated for your language. اقرأ الأصل.

AI-assisted draft.

قبل 4 أيام2دقيقة قراءة

DiffusionGemma: 1,000 توكن في الثانية

تعمل معظم النماذج اللغوية كلمة بكلمة، حيث تنتقل من اليسار إلى اليمين. وهذا يضع حداً للسرعة لأن النموذج يجب أن ينتظر انتهاء كل كلمة قبل البدء في الكلمة التالية.

لقد غيرت Google DeepMind هذا الأمر باستخدام DiffusionGemma.

بدلاً من الكتابة المتسلسلة، يستخدم النموذج عملية إزالة الضجيج (denoising). حيث يأخذ كتلة تصل إلى 256 توكن ويقوم بتحسينها جميعاً في وقت واحد. يحقق هذا النهج أكثر من 1,000 توكن في الثانية على وحدة NVIDIA H100 واحدة، وهو ما يعادل أربعة أضعاف سرعة النماذج القياسية.

كيف يعمل:

يبدأ النموذج بكتلة من التوكنات المؤقتة (placeholder tokens).
يقوم بإجراء عدة تمريرات لتنظيف هذه التوكنات المؤقتة.
ينظر كل توكن إلى كل توكن آخر في الكتلة في نفس الوقت.
تساعد هذه الرؤية ثنائية الاتجاه النموذج على فهم السياق من كلا الجانبين.

أداء الأجهزة:

• NVIDIA H100: +1,000 توكن/ثانية • NVIDIA DGX Station: ما يصل إلى 2,000 توكن/ثانية • GeForce RTX 5090: ~700 توكن/ثانية • الحاجة إلى VRAM: ~18 جيجابايت عند استخدام التكميم (quantized)

أين يُستخدم:

يتفوق DiffusionGemma في الإعدادات المحلية. ففي السحابة، تقوم الشركات بتجميع العديد من المستخدمين معاً للحفاظ على الكفاءة، أما على جهاز الكمبيوتر الخاص بك، فغالباً ما تظل وحدة معالجة الرسومات (GPU) خاملة بين الكلمات. يحل DiffusionGemma هذه المشكلة عن طريق تحويل اختناقات الذاكرة إلى مهام حوسبة خام.

استخدمه من أجل:

إكمال الكود (Code infilling): إضافة كود في منتصف دالة.
تحرير النصوص: تغيير جملة داخل فقرة.
المهام المقيدة: حل الألغاز أو المسائل الرياضية حيث يجب أن تتوافق الكتلة بأكملها معاً.

المقايضة هي الجودة. تظهر الاختبارات المرجعية (Benchmarks) أن DiffusionGemma يسجل درجات أقل من Gemma 4 القياسي في الاستنتاج والبرمجة. فاللغة أصعب في عملية الانتشار (diffusion) من الصور لأن كلمة واحدة خاطئة يمكن أن تفسد جملة كاملة.

الحكم النهائي:

استخدم DiffusionGemma إذا كنت بحاجة إلى السرعة على الأجهزة المحلية. واستخدم Gemma 4 القياسي إذا كنت بحاجة إلى أعلى دقة واستنتاج عميق.

المصدر: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

DiffusionGemma: 1,000 توكن في الثانية

متابعة القراءة

DiffusionGemma: تحول جوجل المبتكر في الذكاء الاصطناعي المفتوح

استدلال جامح! التوليد المتوازي للنماذج اللغوية الكبيرة

DiffusionGemma 26B: توليد النصوص المتوازي

جوجل تغير جيل الذكاء الاصطناعي للأبد

GPT يفعل أكثر مما تظن