Implementazione di GLM-5.2 su Modal

GLM-5.2 è un modello open-weights massiccio. Utilizza un'architettura Mixture-of-Experts (MoE) per il ragionamento complesso e la programmazione. Si avvicina a modelli come Claude 3.5 Sonnet nei compiti di ingegneria.

L'auto-hosting di questo modello da 700 miliardi di parametri richiede 8 GPU NVIDIA H200. Ecco come l'ho implementato utilizzando un approccio serverless su Modal.

Il rapporto costo-beneficio Noleggiare un nodo dedicato con 8x H200 è costoso.

  • RunPod costa $35,12 all'ora.
  • Modal costa $36,31 all'ora.

Tuttavia, Modal fattura al secondo. Scalano a zero quando non lo si utilizza. Una sessione di sviluppo di 20 minuti costa circa $12,00. Quando sei inattivo, il costo è $0,00.

Compromessi della quantizzazione Non è possibile eseguire il modello completo in BF16 su un singolo nodo. Richiede 1,5 TB di VRAM. Ho testato diversi formati per trovare il miglior equilibrio:

  • FP8: Richiede ~700 GB. Mantiene un'accuratezza del 99,2%. Questa è la scelta migliore. Utilizza i Tensor Core nativi di Hopper per una velocità elevata.
  • INT8: Richiede ~750 GB. È più lento perché manca di ottimizzazione hardware.
  • INT4: Richiede ~400 GB. L'accuratezza cala significativamente nei compiti di ragionamento.

Perché l'auto-hosting?

  1. Privacy: Mantieni il tuo codice sensibile all'interno della tua rete sicura.
  2. Nessun limite: Evita i limiti di frequenza (rate limits) e il throttling del contesto tipici delle API pubbliche.
  3. Cache stabile: Hai il controllo della memoria GPU. La tua cache del contesto rimane pronta e stabile.

Lezioni tecniche

  • Correzione errori di importazione: Ho dovuto eliminare un modulo legacy typing_extensions nel Dockerfile per prevenire crash.
  • Accelerazione del caricamento: L'uso della strategia di prefetch ha ridotto il tempo di caricamento del modello da 12 minuti a 1 minuto.
  • Utilizzo della Eager Mode: La compilazione dei grafi matematici richiedeva 20 minuti. La modalità eager si avvia in 4,5 minuti. Potresti riscontrare un piccolo ritardo sulla prima query, ma ne vale la pena per l'avvio rapido.

Il risultato Il modello gestisce facilmente file enormi. L'ho testato con oltre 1.000 righe di codice Python. Ha analizzato la logica e fornito un'analisi architettonica accurata. Ha persino creato un gioco funzionante con audio personalizzato in un unico passaggio.

L'auto-hosting di AI all'avanguardia è ora possibile per i singoli sviluppatori. Ottieni privacy e potenza a un costo contenuto.

Fonte: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

Community di apprendimento opzionale: https://t.me/GyaanSetuAi