بنية Gemma 2: أداء أعلى من نموذج أصغر

أطلقت Google نموذج Gemma 2. يثبت هذا النموذج أنك لست بحاجة إلى حجم هائل للحصول على أداء عالٍ. يتنافس نموذج 27B مع نماذج تبلغ ضعف حجمه.

يكمن السر في البنية.

يستخدم Gemma 2 طريقة انتباه هجينة (hybrid attention). آلية الانتباه القياسية بطيئة وثقيلة، ويقوم Gemma 2 بمعالجة ذلك عبر التبديل بين نوعين من الانتباه:

• انتباه النافذة المنزلقة المحلية (Local sliding window attention): يركز هذا النوع على نافذة مكونة من 4096 توكن (token). وهو يتعامل مع السياق المباشر بسرعة. • الانتباه العالمي (Global attention): ينظر هذا النوع إلى سياق كامل مكون من 8192 توكن.

يمنحك هذا المزيج الكفاءة والسياق العميق دون التكلفة الحسابية العالية.

تستخدم النماذج أيضًا تقنية "انتباه الاستعلام المجمع" (Grouped-Query Attention - GQA). تتيح هذه التقنية لرؤوس استعلام متعددة مشاركة مجموعة واحدة من المفاتيح والقيم، مما يقلل من استخدام الذاكرة ويسرع عملية توليد النصوص. يستخدم نموذجا 9B و27B تقنية GQA، بينما يستخدم نموذج 2B نسخة أسرع تسمى "انتباه الاستعلام المتعدد" (Multi-Query Attention - MQA).

تغيرت أساليب التدريب أيضًا؛ حيث استخدم نموذجا 2B و9B تقنية "تقطير المعرفة" (knowledge distillation)، حيث تعلما من نموذج "معلم" (teacher model) أكبر. يساعد هذا النماذج على فهم الأنماط المعقدة بشكل أفضل من التدريب القياسي.

ماذا يعني هذا بالنسبة لك:

• تكاليف أقل: يمكنك تشغيل Gemma 2 27B على وحدة معالجة رسومات NVIDIA H100 واحدة. • وصول أفضل: تعمل النماذج الأصغر على الأجهزة الاستهلاكية والأجهزة المحمولة. • اختبار أسهل: يمكنك تشغيل النماذج المضبوطة للتعليمات (instruction-tuned models) محليًا باستخدام Ollama.

يشهد القطاع تحولاً؛ فنحن نبتعد عن مجرد إضافة المزيد من المعلمات (parameters). ينصب التركيز الآن على "الذكاء لكل معلمة". وهذا يجعل الذكاء الاصطناعي عالي الجودة أكثر استدامة وعملية للجميع.

المصدر: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi