معماری Gemma 2: عملکرد بیشتر با مدل کوچکتر
گوگل Gemma 2 را منتشر کرد. این مدل ثابت میکند که برای دستیابی به عملکرد بالا، نیازی به اندازه بسیار بزرگ نیست. مدل 27B با مدلهایی که دو برابر بزرگتر هستند رقابت میکند.
راز آن در معماری نهفته است.
Gemma 2 از یک روش توجه ترکیبی (hybrid attention) استفاده میکند. توجه استاندارد (Standard attention) کند و سنگین است. Gemma 2 این مشکل را با سوئیچ کردن بین دو نوع توجه حل میکند:
• توجه پنجره لغزان محلی (Local sliding window attention): این روش بر یک پنجره ۴۰۹۶ توکنی (token) تمرکز دارد و بافت (context) فوری را به سرعت مدیریت میکند. • توجه سراسری (Global attention): این روش کل بافت ۸۱۹۲ توکنی را بررسی میکند.
این ترکیب، کارایی و بافت (context) عمیق را بدون هزینه محاسباتی بالا برای شما فراهم میکند.
این مدلها همچنین از Grouped-Query Attention (GQA) استفاده میکنند. این قابلیت اجازه میدهد چندین هدِ پرسوجو (query heads) در یک مجموعه کلید (key) و مقدار (value) مشترک باشند. این کار مصرف حافظه را کاهش داده و سرعت تولید متن را بالا میبرد. مدلهای 9B و 27B از GQA استفاده میکنند. مدل 2B از نسخه حتی سریعتری به نام Multi-Query Attention (MQA) استفاده میکند.
روشهای آموزش نیز تغییر کردهاند. مدلهای 2B و 9B از روش تقطیر دانش (knowledge distillation) استفاده کردند. آنها از یک مدل معلم (teacher model) بزرگتر یاد گرفتند. این کار به آنها کمک میکند تا الگوهای پیچیده را بهتر از آموزش استاندارد درک کنند.
این موضوع چه معنایی برای شما دارد:
• هزینههای کمتر: میتوانید Gemma 2 27B را روی یک تک GPU NVIDIA H100 اجرا کنید. • دسترسی بهتر: مدلهای کوچکتر روی سختافزارهای مصرفکننده و دستگاههای موبایل کار میکنند. • تست آسانتر: میتوانید مدلهای تنظیمشده برای دستورالعمل (instruction-tuned) را به صورت محلی با استفاده از Ollama اجرا کنید.
صنعت در حال تغییر است. ما از صرفاً اضافه کردن پارامترهای بیشتر فاصله میگیریم. اکنون تمرکز بر میزان هوش به ازای هر پارامتر است. این امر باعث میشود هوش مصنوعی با کیفیت بالا، برای همه پایدارتر و کاربردیتر شود.
منبع: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi