𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

Translated for your language. Читать оригинал.

AI-assisted draft.

позавчера1мин чтения

Архитектура Gemma 2: больше производительности при меньшем размере модели

Google выпустила Gemma 2. Эта модель доказывает, что для достижения высокой производительности не требуются огромные размеры. Модель 27B конкурирует с моделями, которые в два раза больше неё.

Секрет кроется в архитектуре.

Gemma 2 использует гибридный метод внимания (attention). Стандартное внимание работает медленно и требует много ресурсов. Gemma 2 решает эту проблему, переключаясь между двумя типами внимания:

• Локальное внимание со скользящим окном (Local sliding window attention): оно фокусируется на окне в 4096 токенов и быстро обрабатывает ближайший контекст. • Глобальное внимание (Global attention): оно охватывает полный контекст в 8192 токена.

Такое сочетание обеспечивает эффективность и глубокое понимание контекста без высоких вычислительных затрат.

Модели также используют Grouped-Query Attention (GQA). Это позволяет нескольким головам запросов (query heads) использовать один и тот же набор ключей (keys) и значений (values). Это снижает потребление памяти и ускоряет генерацию текста. Модели 9B и 27B используют GQA. Модель 2B использует еще более быструю версию под названием Multi-Query Attention (MQA).

Методы обучения тоже изменились. В моделях 2B и 9B использовалась дистилляция знаний (knowledge distillation). Они обучались на основе более крупной модели-учителя. Это помогает им лучше понимать сложные закономерности по сравнению со стандартным обучением.

Что это значит для вас:

• Снижение затрат: вы можете запускать Gemma 2 27B на одном графическом процессоре NVIDIA H100. • Лучшая доступность: меньшие модели работают на потребительском оборудовании и мобильных устройствах. • Простота тестирования: вы можете запускать модели, настроенные под инструкции (instruction-tuned), локально с помощью Ollama.

Индустрия меняется. Мы отходим от простого наращивания количества параметров. Теперь фокус смещается на «интеллект на один параметр». Это делает высококачественный ИИ более устойчивым и практичным для всех.

Source: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

Optional learning community: https://t.me/GyaanSetuAi

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

Продолжить чтение

Google Gemma 4 12B: ИИ на вашем устройстве

Gemma 4 12B показывает, насколько далеко продвинулся локальный мультимодальный ИИ

DiffusionGemma: новый поворот Google в сфере открытого ИИ

DiffusionGemma 26B: Параллельная генерация текста

𝗡𝗼𝗯𝗼𝗱𝘆 𝗪𝗮𝗻𝘁𝘀 𝗬𝗼𝘂𝗿 𝟳𝟬𝗕 𝗣𝗮𝗿𝗮𝗺𝗲𝘁𝗲𝗿 𝗠𝗼𝗱𝗲𝗹 𝗔𝗻𝘆𝗺𝗼𝗿𝗲