بنية Gemma 2: أداء أفضل من نموذج أصغر

Translated for your language. اقرأ الأصل.

AI-assisted draft.

أول أمس1دقيقة قراءة

بنية Gemma 2: أداء أعلى من نموذج أصغر

أطلقت Google نموذج Gemma 2. يثبت هذا النموذج أنك لست بحاجة إلى حجم هائل للحصول على أداء عالٍ. يتنافس نموذج 27B مع نماذج تبلغ ضعف حجمه.

يكمن السر في البنية.

يستخدم Gemma 2 طريقة انتباه هجينة (hybrid attention). آلية الانتباه القياسية بطيئة وثقيلة، ويقوم Gemma 2 بمعالجة ذلك عبر التبديل بين نوعين من الانتباه:

• انتباه النافذة المنزلقة المحلية (Local sliding window attention): يركز هذا النوع على نافذة مكونة من 4096 توكن (token). وهو يتعامل مع السياق المباشر بسرعة. • الانتباه العالمي (Global attention): ينظر هذا النوع إلى سياق كامل مكون من 8192 توكن.

يمنحك هذا المزيج الكفاءة والسياق العميق دون التكلفة الحسابية العالية.

تستخدم النماذج أيضًا تقنية "انتباه الاستعلام المجمع" (Grouped-Query Attention - GQA). تتيح هذه التقنية لرؤوس استعلام متعددة مشاركة مجموعة واحدة من المفاتيح والقيم، مما يقلل من استخدام الذاكرة ويسرع عملية توليد النصوص. يستخدم نموذجا 9B و27B تقنية GQA، بينما يستخدم نموذج 2B نسخة أسرع تسمى "انتباه الاستعلام المتعدد" (Multi-Query Attention - MQA).

تغيرت أساليب التدريب أيضًا؛ حيث استخدم نموذجا 2B و9B تقنية "تقطير المعرفة" (knowledge distillation)، حيث تعلما من نموذج "معلم" (teacher model) أكبر. يساعد هذا النماذج على فهم الأنماط المعقدة بشكل أفضل من التدريب القياسي.

ماذا يعني هذا بالنسبة لك:

• تكاليف أقل: يمكنك تشغيل Gemma 2 27B على وحدة معالجة رسومات NVIDIA H100 واحدة. • وصول أفضل: تعمل النماذج الأصغر على الأجهزة الاستهلاكية والأجهزة المحمولة. • اختبار أسهل: يمكنك تشغيل النماذج المضبوطة للتعليمات (instruction-tuned models) محليًا باستخدام Ollama.

يشهد القطاع تحولاً؛ فنحن نبتعد عن مجرد إضافة المزيد من المعلمات (parameters). ينصب التركيز الآن على "الذكاء لكل معلمة". وهذا يجعل الذكاء الاصطناعي عالي الجودة أكثر استدامة وعملية للجميع.

المصدر: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

بنية Gemma 2: أداء أفضل من نموذج أصغر

متابعة القراءة

𝗚𝗼𝗼𝗴𝗹𝗲 𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕: 𝗔𝗜 𝗢𝗻 𝗬𝗼𝘂𝗿 𝗗𝗲𝘃𝗶𝗰𝗲

Gemma 4 12B يوضح مدى التقدم الذي وصل إليه الذكاء الاصطناعي المحلي متعدد الوسائط

DiffusionGemma: تحول جوجل المبتكر في الذكاء الاصطناعي المفتوح

DiffusionGemma 26B: توليد النصوص المتوازي

لم يعد أحد يرغب في نموذجك المكون من 70 مليار معلمة بعد الآن