Gemma 4 12B يوضح مدى التقدم الذي حققه الذكاء الاصطناعي متعدد الوسائط المحلي

يعد Gemma 4 12B إصدارًا جديدًا من Google DeepMind. فهو يقلص الفجوة بين النماذج المتقدمة متعددة الوسائط والنماذج التي يمكنك تشغيلها على جهاز كمبيوتر محمول. هذا النموذج كثيف (dense)، ومتعدد الوسائط، ومصمم ليتناسب مع ميزانية ذاكرة عملية. كما أنه يضيف ميزة الإدخال الصوتي الأصلي.

بالنسبة للمطورين، السؤال المهم هو ما إذا كانت البنية تجعل التجربة المحلية وسير العمل على الجهاز أسهل. في هذه الحالة، الإجابة هي نعم. يعد Gemma 4 12B نموذجًا موحدًا متعدد الوسائط وخاليًا من المشفرات (encoder-free) مع دعم للنصوص والصور والصوت. وهو مصمم للعمل بذاكرة VRAM سعة 16 جيجابايت أو ذاكرة موحدة.

يتميز هذا النموذج بدعمه للنظام البيئي (ecosystem). فهو متوافق مع أدوات مثل LM Studio وOllama وMLX. وهذا أمر مهم لأن النماذج لا تصبح مفيدة إلا عندما تجعل الأدوات المحيطة بها من السهل اختبارها وضبطها (fine-tune) ونشرها.

يتبع Gemma 4 12B نهجًا مختلفًا عن الأنظمة التقليدية متعددة الوسائط. فهو يستخدم وحدة تضمين رؤية (vision embedding) خفيفة الوزن ويقوم بإسقاط الصوت الخام في نفس المساحة الداخلية لرموز النصوص (text tokens). لهذا الخيار التصميمي عواقب عملية:

  • عدد أقل من الوحدات الفرعية المتخصصة التي يجب إدارتها
  • عبء ذاكرة أقل
  • تعقيد أقل في مكدس الاستدلال (inference stack)
  • مسار أبسط للنشر المحلي

تم تحديد حجم هذا النموذج ليتناسب مع الأجهزة التي تحتوي على ذاكرة RAM أو VRAM تبلغ حوالي 16 جيجابايت. وهو يستهدف أجهزة المطورين العادية بدلاً من اقتصاره على وحدات معالجة الرسومات (GPUs) في مراكز البيانات. يهدف Gemma 4 12B إلى سد الفجوة بين نماذج الحافة (edge models) الصغيرة والأنظمة الأكبر بكثير.

المصدر: إعلان مدونة Google مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi