𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

Translated for your language. Read the original.

AI-assisted draft.

گزشتہ پرسوں1min read

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹 Gemma 2 آرکیٹیکچر: کم ماڈل سے زیادہ کارکردگی

Google نے Gemma 2 جاری کیا ہے۔ یہ ماڈل ثابت کرتا ہے کہ اعلیٰ کارکردگی حاصل کرنے کے لیے آپ کو بہت بڑے سائز کی ضرورت نہیں ہے۔ 27B ماڈل اپنے سے دوگنا سائز کے ماڈلز کا مقابلہ کرتا ہے۔

اس کا راز اس کے آرکیٹیکچر میں چھپا ہے۔

Gemma 2 ایک ہائبرڈ اٹینشن (hybrid attention) طریقہ استعمال کرتا ہے۔ اسٹینڈرڈ اٹینشن سست اور بھاری ہوتی ہے۔ Gemma 2 توجہ کی دو اقسام کے درمیان سوئچ کر کے اس مسئلے کو حل کرتا ہے:

• لوکل سلائیڈنگ ونڈو اٹینشن (Local sliding window attention): یہ 4096 ٹوکن ونڈو پر توجہ مرکوز کرتا ہے۔ یہ فوری سیاق و سباق (context) کو تیزی سے سنبھالتا ہے۔ • گلوبل اٹینشن (Global attention): یہ مکمل 8192 ٹوکن کے سیاق و سباق کو دیکھتا ہے۔

یہ ملاپ آپ کو زیادہ کمپیوٹیشنل لاگت کے بغیر کارکردگی اور گہرا سیاق و سباق فراہم کرتا ہے۔

یہ ماڈلز Grouped-Query Attention (GQA) کا بھی استعمال کرتے ہیں۔ یہ متعدد کوئری ہیڈز (query heads) کو ایک ہی کی (key) اور ویلیو (value) سیٹ شیئر کرنے کی اجازت دیتا ہے۔ اس سے میموری کا استعمال کم ہوتا ہے اور ٹیکسٹ جنریشن کی رفتار بڑھ جاتی ہے۔ 9B اور 27B ماڈلز GQA استعمال کرتے ہیں۔ 2B ماڈل اس سے بھی تیز ورژن استعمال کرتا ہے جسے Multi-Query Attention (MQA) کہا جاتا ہے۔

ٹریننگ کے طریقے بھی بدل گئے ہیں۔ 2B اور 9B ماڈلز نے نالج ڈسٹلیشن (knowledge distillation) کا استعمال کیا۔ انہوں نے ایک بڑے ٹیچر ماڈل سے سیکھا۔ یہ انہیں اسٹینڈرڈ ٹریننگ کے مقابلے میں پیچیدہ پیٹرنز کو بہتر طور پر سمجھنے میں مدد دیتا ہے۔

اس کا آپ کے لیے کیا مطلب ہے:

• کم لاگت: آپ Gemma 2 27B کو ایک ہی NVIDIA H100 GPU پر چلا سکتے ہیں۔ • بہتر رسائی: چھوٹے ماڈلز صارفین کے ہارڈ ویئر اور موبائل ڈیوائسز پر کام کرتے ہیں۔ • آسان ٹیسٹنگ: آپ Ollama کا استعمال کرتے ہوئے انسٹرکشن ٹیونڈ (instruction-tuned) ماڈلز کو مقامی طور پر چلا سکتے ہیں۔

صنعت بدل رہی ہے۔ ہم صرف زیادہ پیرامیٹرز (parameters) شامل کرنے سے ہٹ کر آگے بڑھ رہے ہیں۔ اب توجہ فی پیرامیٹر ذہانت (intelligence per parameter) پر ہے۔ یہ اعلیٰ معیار کی AI کو ہر ایک کے لیے زیادہ پائیدار اور عملی بناتا ہے۔

Source: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

Optional learning community: https://t.me/GyaanSetuAi

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

Continue reading

گوگل جیما 4 12B: آپ کے اپنے ڈیوائس پر AI

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

DiffusionGemma: گوگل کا اوپن اے آئی ٹوئسٹ

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗡𝗼𝗯𝗼𝗱𝘆 𝗪𝗮𝗻𝘁𝘀 𝗬𝗼𝘂𝗿 𝟳𝟬𝗕 𝗣𝗮𝗿𝗮𝗺𝗲𝘁𝗲𝗿 𝗠𝗼𝗱𝗲𝗹 𝗔𝗻𝘆𝗺𝗼𝗿𝗲