Implantando o GLM-5.2 no Modal

O GLM-5.2 é um modelo massivo de pesos abertos (open-weights). Ele utiliza uma arquitetura Mixture-of-Experts (MoE) para raciocínio complexo e codificação. Ele se equipara a modelos como o Claude 3.5 Sonnet em tarefas de engenharia.

Hospedar este modelo de 700 bilhões de parâmetros por conta própria exige 8x GPUs NVIDIA H200. Aqui está como eu o implantei usando uma abordagem serverless no Modal.

O Custo-Benefício Alugar um nó dedicado com 8x H200 é caro.

  • O RunPod custa US$ 35,12 por hora.
  • O Modal custa US$ 36,31 por hora.

No entanto, o Modal fatura por segundo. Ele escala para zero quando você não o está utilizando. Uma sessão de desenvolvimento de 20 minutos custa cerca de US$ 12,00. Quando você está inativo, o custo é US$ 0,00.

Trade-offs de Quantização Você não consegue rodar o modelo BF16 completo em um único nó. Ele requer 1,5 TB de VRAM. Eu testei diferentes formatos para encontrar o melhor equilíbrio:

  • FP8: Requer ~700 GB. Mantém 99,2% de precisão. Esta é a melhor escolha. Utiliza Tensor Cores nativos da arquitetura Hopper para alta velocidade.
  • INT8: Requer ~750 GB. É mais lento porque carece de otimização de hardware.
  • INT4: Requer ~400 GB. A precisão cai significativamente em tarefas de raciocínio.

Por que hospedar por conta própria?

  1. Privacidade: Mantenha seu código sensível dentro de sua própria rede segura.
  2. Sem Limites: Evite os limites de taxa (rate limits) e o estrangulamento de contexto (context throttling) encontrados em APIs públicas.
  3. Cache Estável: Você controla a memória da GPU. Seu cache de contexto permanece aquecido e estável.

Lições Técnicas

  • Corrigindo Erros de Importação: Tive que deletar um módulo legado typing_extensions no Dockerfile para evitar travamentos.
  • Acelerando o Carregamento: O uso da estratégia de prefetch reduziu o tempo de carregamento do modelo de 12 minutos para 1 minuto.
  • Use o Eager Mode: Compilar grafos matemáticos levava 20 minutos. O modo eager inicia em 4,5 minutos. Você pode notar um pequeno atraso na primeira consulta, mas vale a pena pela inicialização rápida.

O Resultado O modelo lida com arquivos enormes facilmente. Eu o testei com mais de 1.000 linhas de código Python. Ele analisou a lógica e forneceu uma análise arquitetural precisa. Ele até construiu um jogo funcional com áudio personalizado em uma única passagem.

Hospedar IA de fronteira por conta própria agora é possível para desenvolvedores individuais. Você obtém privacidade e poder a um baixo custo.

Fonte: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi