DiffusionGemma: 1 000 токенов в секунду
Большинство языковых моделей работают по одному слову за раз. Они движутся слева направо. Это создает ограничение скорости, так как модели приходится ждать завершения генерации каждого слова, прежде чем начать следующее.
Google DeepMind изменили это с помощью DiffusionGemma.
Вместо последовательного написания она использует процесс денойзинга (очистки от шума). Модель берет блок объемом до 256 токенов и уточняет их все одновременно. Такой подход позволяет достичь скорости более 1 000 токенов в секунду на одной NVIDIA H100. Это в четыре раза быстрее стандартных моделей.
Как это работает:
- Модель начинает с блока токенов-заполнителей.
- Она выполняет несколько проходов, чтобы очистить эти заполнители.
- Каждый токен одновременно «смотрит» на все остальные токены в блоке.
- Такой двунаправленный взгляд помогает модели понимать контекст с обеих сторон.
Производительность оборудования:
• NVIDIA H100: 1 000+ токенов/сек • NVIDIA DGX Station: до 2 000 токенов/сек • GeForce RTX 5090: ~700 токенов/сек • Требуемый объем VRAM: ~18 ГБ при квантовании
Где это использовать:
DiffusionGemma отлично подходит для локального использования. В облаке компании объединяют запросы многих пользователей в пакеты для обеспечения эффективности. На вашем собственном компьютере GPU часто простаивает между словами. DiffusionGemma решает эту проблему, превращая узкие места памяти в задачи чистых вычислений.
Используйте её для:
- Дописывания кода (code infilling): добавление кода в середину функции.
- Редактирования текста: изменение предложения внутри абзаца.
- Задач с ограничениями: решение головоломок или математических задач, где весь блок должен быть согласован.
Компромиссом является качество. Бенчмарки показывают, что DiffusionGemma набирает меньше баллов, чем стандартная Gemma 4, в задачах на рассуждение и программирование. Текст сложнее подвергать диффузии, чем изображения, потому что одно неверное слово может испортить все предложение.
Вердикт:
Используйте DiffusionGemma, если вам нужна скорость на локальном оборудовании. Используйте стандартную Gemma 4, если вам нужна максимальная точность и глубокие рассуждения.
Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi