Архитектура Gemma 2: больше производительности при меньшем размере модели
Google выпустила Gemma 2. Эта модель доказывает, что для достижения высокой производительности не требуются огромные размеры. Модель 27B конкурирует с моделями, которые в два раза больше неё.
Секрет кроется в архитектуре.
Gemma 2 использует гибридный метод внимания (attention). Стандартное внимание работает медленно и требует много ресурсов. Gemma 2 решает эту проблему, переключаясь между двумя типами внимания:
• Локальное внимание со скользящим окном (Local sliding window attention): оно фокусируется на окне в 4096 токенов и быстро обрабатывает ближайший контекст. • Глобальное внимание (Global attention): оно охватывает полный контекст в 8192 токена.
Такое сочетание обеспечивает эффективность и глубокое понимание контекста без высоких вычислительных затрат.
Модели также используют Grouped-Query Attention (GQA). Это позволяет нескольким головам запросов (query heads) использовать один и тот же набор ключей (keys) и значений (values). Это снижает потребление памяти и ускоряет генерацию текста. Модели 9B и 27B используют GQA. Модель 2B использует еще более быструю версию под названием Multi-Query Attention (MQA).
Методы обучения тоже изменились. В моделях 2B и 9B использовалась дистилляция знаний (knowledge distillation). Они обучались на основе более крупной модели-учителя. Это помогает им лучше понимать сложные закономерности по сравнению со стандартным обучением.
Что это значит для вас:
• Снижение затрат: вы можете запускать Gemma 2 27B на одном графическом процессоре NVIDIA H100. • Лучшая доступность: меньшие модели работают на потребительском оборудовании и мобильных устройствах. • Простота тестирования: вы можете запускать модели, настроенные под инструкции (instruction-tuned), локально с помощью Ollama.
Индустрия меняется. Мы отходим от простого наращивания количества параметров. Теперь фокус смещается на «интеллект на один параметр». Это делает высококачественный ИИ более устойчивым и практичным для всех.
Source: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc
Optional learning community: https://t.me/GyaanSetuAi