Почему Groq кажется читерством

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorial2 недели назад2мин чтения

Почему Groq кажется читерством

Недавно я построил мультиагентный пайплайн с использованием LangGraph. Я сравнил Groq со стандартными провайдерами LLM. Разница показалась колоссальной.

Другие провайдеры ощущаются как обычный API-вызов. Вы отправляете запрос и ждете текст. Groq же кажется читерством. Модель на 70B выдала полный ответ еще до того, как я закончил читать собственный промпт.

Большинство людей полагает, что у Groq лучше GPU. Это не так. Groq вообще не использует GPU. Они создали новый чип под названием LPU, или Language Processing Unit.

GPU создавались для графики и обучения моделей. Они хорошо справляются, когда нужно обрабатывать массивные пакеты данных. Но они испытывают трудности с инференсом в реальном времени.

Проблема заключается в «стене памяти» (memory wall). В GPU веса модели находятся в памяти, отделенной от вычислительных ядер. Чип тратит слишком много времени на ожидание поступления данных.

Groq решили эту проблему, разместив память прямо на чипе. Они используют SRAM вместо HBM. Это создает 10-кратный разрыв в пропускной способности. Кроме того, при учете задержек (latency) доступ к данным становится в 20 раз быстрее.

Есть еще одна причина такой скорости: детерминизм.

GPU используют динамическое планирование. Чип решает, что делать, непосредственно во время работы. Это создает микроскопические задержки. Groq использует подход, ориентированный на программное обеспечение (software-first). Их компилятор заранее рассчитывает каждую операцию и каждую инструкцию. Чип следует заранее заданному расписанию. Ему не нужно думать о том, что делать дальше.

Результаты говорят сами за себя: • Llama 2 70B работает на Groq со скоростью 300 токенов в секунду. • Nvidia H100 выдает 30–40 токенов в секунду. • Llama 3 8B на Groq достигает скорости более 1300 токенов в секунду.

Groq также более эффективен. Он потребляет меньше энергии на один токен, потому что выполняет работу гораздо быстрее.

У такой архитектуры есть свои компромиссы. SRAM стоит дорого и занимает много физического места. Один чип не может вместить гигантскую модель. Чтобы обслуживать большие модели, требуются сотни работающих вместе LPU. Это делает оборудование более дорогим, чем GPU.

Groq не пытается обучать модели. Они сосредоточены на максимально быстром запуске существующих моделей, таких как Llama или Mixtral.

Индустрия движется к использованию обоих вариантов. GPU берут на себя тяжелое обучение и первичную обработку. LPU отвечают за быстрые диалоги в реальном времени.

Nvidia оптимизировала систему для совокупной вычислительной мощности. Groq оптимизировала систему так, чтобы вычисления никогда не ждали данных. Для ИИ-агентов реального времени важна именно вторая цель.

Источник: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

Почему Groq кажется читерством

Продолжить чтение

Запуск двух моделей на одном GPU: математика локальных LLM

GPT способна на большее, чем вы думаете

Без потерь, но не бесплатно: когда работает спекулятивное декодирование