Déploiement de GLM 5.2 sur Modal

Translated for your language. Lire l'original.

AI-assisted draft.

GyaanSetu Editorialil y a 2 semaines2min de lecture

Déploiement de GLM-5.2 sur Modal

GLM-5.2 est un modèle massif à poids ouverts (open-weights). Il utilise une architecture Mixture-of-Experts (MoE) pour le raisonnement complexe et le codage. Il égale des modèles comme Claude 3.5 Sonnet sur les tâches d'ingénierie.

L'auto-hébergement de ce modèle de 700 milliards de paramètres nécessite 8 GPU NVIDIA H200. Voici comment je l'ai déployé en utilisant une approche serverless sur Modal.

Le rapport coût-bénéfice Louer un nœud dédié avec 8x H200 est coûteux.

RunPod coûte 35,12 $ par heure.
Modal coûte 36,31 $ par heure.

Cependant, Modal facture à la seconde. Il passe à zéro lorsqu'il n'est pas utilisé. Une session de développement de 20 minutes coûte environ 12,00 $. Lorsque vous êtes inactif, le coût est de 0,00 $.

Compromis de quantification Vous ne pouvez pas exécuter le modèle complet en BF16 sur un seul nœud. Il nécessite 1,5 To de VRAM. J'ai testé différents formats pour trouver le meilleur équilibre :

FP8 : nécessite environ 700 Go. Il conserve 99,2 % de précision. C'est le meilleur choix. Il utilise les Tensor Cores natifs de Hopper pour une vitesse élevée.
INT8 : nécessite environ 750 Go. Il est plus lent car il manque d'optimisation matérielle.
INT4 : nécessite environ 400 Go. La précision chute considérablement dans les tâches de raisonnement.

Pourquoi l'auto-héberger ?

Confidentialité : Gardez votre code sensible au sein de votre propre réseau sécurisé.
Aucune limite : Évitez les limites de débit (rate limits) et le bridage du contexte (context throttling) que l'on trouve sur les API publiques.
Cache stable : Vous contrôlez la mémoire GPU. Votre cache de contexte reste chaud et stable.

Leçons techniques

Corriger les erreurs d'importation : J'ai dû supprimer un module typing_extensions obsolète dans le Dockerfile pour éviter les plantages.
Accélérer le chargement : L'utilisation de la stratégie de préchargement (prefetch) a réduit le temps de chargement du modèle de 12 minutes à 1 minute.
Utiliser le mode Eager : La compilation des graphes mathématiques prenait 20 minutes. Le mode Eager démarre en 4,5 minutes. Vous pourriez constater un léger délai lors de la première requête, mais cela vaut le coup pour un démarrage rapide.

Le résultat Le modèle gère facilement de gros fichiers. Je l'ai testé avec plus de 1 000 lignes de code Python. Il a analysé la logique et fourni une analyse architecturale précise. Il a même construit un jeu fonctionnel avec un audio personnalisé en une seule passe.

L'auto-hébergement d'une IA de pointe est désormais possible pour les développeurs individuels. Vous obtenez confidentialité et puissance à un coût réduit.

Source : https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi

Déploiement de GLM 5.2 sur Modal

Continuer la lecture

Le GLM 5.2 de Zhipu AI réduit l'écart avec les géants du code en source fermée

Run GLM 5.2 Locally on Your Desktop

Le PDG de Snowflake : GLM 5.2 rivalise avec Claude Opus 4.7 pour une fraction du coût