Pourquoi Groq donne l'impression de tricher

J'ai récemment construit un pipeline multi-agents en utilisant LangGraph. J'ai comparé Groq aux fournisseurs de LLM standards. La différence était massive.

Les autres fournisseurs ressemblent à un appel API classique. Vous envoyez une requête et vous attendez le texte. Groq donne l'impression de tricher. Un modèle 70B a renvoyé une réponse complète avant même que j'aie fini de lire mon propre prompt.

La plupart des gens supposent que Groq possède de meilleurs GPU. C'est faux. Groq n'utilise pas du tout de GPU. Ils ont conçu une nouvelle puce appelée LPU, ou Language Processing Unit.

Les GPU ont été conçus pour le graphisme et l'entraînement de modèles. Ils fonctionnent bien lorsque vous traitez des lots massifs de données. Mais ils peinent lors de l'inférence en temps réel.

Le problème est le « mur de la mémoire » (memory wall). Dans un GPU, les poids du modèle résident dans une mémoire séparée des cœurs de calcul. La puce passe trop de temps à attendre l'arrivée des données.

Groq a résolu ce problème en plaçant la mémoire directement sur la puce. Ils utilisent de la SRAM au lieu de la HBM. Cela crée un écart de bande passante de 10x. Cela rend également l'accès aux données 20 fois plus rapide si l'on prend en compte la latence.

Il y a une autre raison à cette vitesse : le déterminisme.

Les GPU utilisent un ordonnancement dynamique. La puce décide de ce qu'elle doit faire pendant son exécution. Cela crée de minuscules délais. Groq utilise une approche axée sur le logiciel (software-first). Leur compilateur calcule chaque opération et instruction à l'avance. La puce suit un programme préétabli. Elle n'a pas besoin de réfléchir à ce qu'elle doit faire ensuite.

Les résultats parlent d'eux-mêmes : • Llama 2 70B tourne à 300 tokens par seconde sur Groq. • Un Nvidia H100 le fait tourner à 30–40 tokens par seconde. • Llama 3 8B atteint plus de 1 300 tokens par seconde sur Groq.

Groq est également plus efficace. Il utilise moins d'énergie totale par token car il termine le travail beaucoup plus rapidement.

Cette conception comporte des compromis. La SRAM est coûteuse et occupe beaucoup d'espace physique. Une seule puce ne peut pas contenir un modèle géant. Il faut des centaines de LPU travaillant ensemble pour servir de grands modèles. Cela rend le matériel plus coûteux que les GPU.

Groq ne cherche pas à entraîner des modèles. Ils se concentrent sur l'exécution de modèles existants comme Llama ou Mixtral le plus rapidement possible.

L'industrie évolue vers une utilisation combinée des deux. Les GPU gèrent l'entraînement intensif et le traitement initial. Les LPU gèrent la conversation rapide en temps réel.

Nvidia a optimisé pour le calcul total. Groq a optimisé pour garantir que le calcul n'attende jamais les données. Pour les agents IA en temps réel, c'est le second objectif qui importe.

Source: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi