Gemma 4 12B دکھاتا ہے کہ لوکل ملٹی موڈل AI نے کتنی ترقی کر لی ہے

Gemma 4 12B، Google DeepMind کی جانب سے ایک نیا ریلیز ہے۔ یہ جدید ملٹی موڈل ماڈلز اور ان ماڈلز کے درمیان فرق کو کم کرتا ہے جنہیں آپ لیپ ٹاپ پر چلا سکتے ہیں۔ یہ ماڈل ڈینس (dense)، ملٹی موڈل ہے، اور اسے ایک عملی میموری بجٹ کے مطابق ڈیزائن کیا گیا ہے۔ اس میں نیٹیو آڈیو ان پٹ (native audio input) کا اضافہ بھی کیا گیا ہے۔

ڈویلپرز کے لیے اہم سوال یہ ہے کہ کیا اس کا آرکیٹیکچر لوکل تجربات اور آن ڈیوائس ورک فلو کو آسان بناتا ہے۔ اس معاملے میں، جواب 'ہاں' ہے۔ Gemma 4 12B ایک متحد (unified)، انکوڈر فری (encoder-free) ملٹی موڈل ماڈل ہے جو ٹیکسٹ، تصاویر اور آڈیو کو سپورٹ کرتا ہے۔ اسے 16 GB VRAM یا یونیفائیڈ میموری کے ساتھ چلانے کے لیے ڈیزائن کیا گیا ہے۔

یہ ماڈل اپنی ایکوسسٹم سپورٹ کی وجہ سے نمایاں ہے۔ یہ LM Studio، Ollama، اور MLX جیسے ٹولز کے ساتھ مطابقت رکھتا ہے۔ یہ بات اس لیے اہم ہے کیونکہ ماڈلز صرف اس وقت مفید ہوتے ہیں جب ارد گرد کے ٹولز انہیں ٹیسٹ کرنا، فائن ٹیون کرنا اور ڈیپلائے کرنا آسان بنا دیں۔

Gemma 4 12B روایتی ملٹی موڈل سسٹمز کے مقابلے میں ایک مختلف طریقہ اپناتا ہے۔ یہ ایک ہلکا پھلکا (lightweight) ویژن ایمبیڈنگ ماڈول استعمال کرتا ہے اور خام آڈیو (raw audio) کو ٹیکسٹ ٹوکنز کے ہی اندرونی اسپیس میں پروجیکٹ کرتا ہے۔ اس ڈیزائن کے انتخاب کے عملی نتائج درج ذیل ہیں:

  • مینیج کرنے کے لیے کم مخصوص سب ماڈیولز
  • کم میموری اوور ہیڈ (memory overhead)
  • انفرنس اسٹیک (inference stack) میں کم پیچیدگی
  • لوکل ڈیپلائمنٹ کے لیے ایک آسان راستہ

یہ ماڈل تقریباً 16 GB RAM یا VRAM والی مشینوں کے لیے بنایا گیا ہے۔ اس کا مقصد صرف ڈیٹا سینٹر GPUs کے بجائے عام ڈویلپر ہارڈ ویئر کو نشانہ بنانا ہے۔ Gemma 4 12B کا مقصد چھوٹے ایج ماڈلز (edge models) اور بہت بڑے سسٹمز کے درمیان فرق کو پُر کرنا ہے۔

ماخذ: Google بلاگ اناؤنسمنٹ اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi