معماری Gemma 2: عملکرد بیشتر با مدل کوچک‌تر

گوگل Gemma 2 را منتشر کرد. این مدل ثابت می‌کند که برای دستیابی به عملکرد بالا، نیازی به اندازه بسیار بزرگ نیست. مدل 27B با مدل‌هایی که دو برابر بزرگ‌تر هستند رقابت می‌کند.

راز آن در معماری نهفته است.

Gemma 2 از یک روش توجه ترکیبی (hybrid attention) استفاده می‌کند. توجه استاندارد (Standard attention) کند و سنگین است. Gemma 2 این مشکل را با سوئیچ کردن بین دو نوع توجه حل می‌کند:

• توجه پنجره لغزان محلی (Local sliding window attention): این روش بر یک پنجره ۴۰۹۶ توکنی (token) تمرکز دارد و بافت (context) فوری را به سرعت مدیریت می‌کند. • توجه سراسری (Global attention): این روش کل بافت ۸۱۹۲ توکنی را بررسی می‌کند.

این ترکیب، کارایی و بافت (context) عمیق را بدون هزینه محاسباتی بالا برای شما فراهم می‌کند.

این مدل‌ها همچنین از Grouped-Query Attention (GQA) استفاده می‌کنند. این قابلیت اجازه می‌دهد چندین هدِ پرس‌وجو (query heads) در یک مجموعه کلید (key) و مقدار (value) مشترک باشند. این کار مصرف حافظه را کاهش داده و سرعت تولید متن را بالا می‌برد. مدل‌های 9B و 27B از GQA استفاده می‌کنند. مدل 2B از نسخه حتی سریع‌تری به نام Multi-Query Attention (MQA) استفاده می‌کند.

روش‌های آموزش نیز تغییر کرده‌اند. مدل‌های 2B و 9B از روش تقطیر دانش (knowledge distillation) استفاده کردند. آن‌ها از یک مدل معلم (teacher model) بزرگ‌تر یاد گرفتند. این کار به آن‌ها کمک می‌کند تا الگوهای پیچیده را بهتر از آموزش استاندارد درک کنند.

این موضوع چه معنایی برای شما دارد:

• هزینه‌های کمتر: می‌توانید Gemma 2 27B را روی یک تک GPU NVIDIA H100 اجرا کنید. • دسترسی بهتر: مدل‌های کوچک‌تر روی سخت‌افزارهای مصرف‌کننده و دستگاه‌های موبایل کار می‌کنند. • تست آسان‌تر: می‌توانید مدل‌های تنظیم‌شده برای دستورالعمل (instruction-tuned) را به صورت محلی با استفاده از Ollama اجرا کنید.

صنعت در حال تغییر است. ما از صرفاً اضافه کردن پارامترهای بیشتر فاصله می‌گیریم. اکنون تمرکز بر میزان هوش به ازای هر پارامتر است. این امر باعث می‌شود هوش مصنوعی با کیفیت بالا، برای همه پایدارتر و کاربردی‌تر شود.

منبع: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi