Despliegue de GLM 5.2 en Modal

Translated for your language. Leer el original.

AI-assisted draft.

GyaanSetu Editorialhace 2 semanas2min de lectura

Desplegando GLM-5.2 en Modal

GLM-5.2 es un modelo masivo de pesos abiertos (open-weights). Utiliza una arquitectura de Mezcla de Expertos (MoE) para razonamiento complejo y programación. Se equipara a modelos como Claude 3.5 Sonnet en tareas de ingeniería.

Alojar este modelo de 700B parámetros requiere 8 GPUs NVIDIA H200. Así es como lo desplegué utilizando un enfoque serverless en Modal.

Relación costo-beneficio Alquilar un nodo dedicado de 8x H200 es costoso.

RunPod cuesta $35.12 por hora.
Modal cuesta $36.31 por hora.

Sin embargo, Modal factura por segundo. Escala a cero cuando no lo estás usando. Una sesión de desarrollo de 20 minutos cuesta aproximadamente $12.00. Cuando estás inactivo, el costo es $0.00.

Compromisos de la cuantización No puedes ejecutar el modelo completo en BF16 en un solo nodo. Requiere 1.5 TB de VRAM. Probé diferentes formatos para encontrar el mejor equilibrio:

FP8: Requiere ~700 GB. Mantiene un 99.2% de precisión. Esta es la mejor opción. Utiliza Tensor Cores nativos de Hopper para una velocidad rápida.
INT8: Requiere ~750 GB. Es más lento porque carece de optimización de hardware.
INT4: Requiere ~400 GB. La precisión cae significativamente en tareas de razonamiento.

¿Por qué alojarlo por cuenta propia?

Privacidad: Mantén tu código sensible dentro de tu propia red segura.
Sin límites: Evita los límites de tasa (rate limits) y la restricción de contexto (context throttling) que se encuentran en las APIs públicas.
Caché estable: Tú controlas la memoria de la GPU. Tu caché de contexto se mantiene activo y estable.

Lecciones técnicas

Corregir errores de importación: Tuve que eliminar un módulo antiguo de typing_extensions en el Dockerfile para evitar fallos.
Acelerar la carga: El uso de la estrategia de prefetch redujo el tiempo de carga del modelo de 12 minutos a 1 minuto.
Usar Eager Mode: Compilar grafos matemáticos tomaba 20 minutos. El modo eager (eager mode) inicia en 4.5 minutos. Es posible que veas un pequeño retraso en la primera consulta, pero vale la pena por el inicio rápido.

El resultado El modelo maneja archivos enormes con facilidad. Lo probé con más de 1,000 líneas de código Python. Analizó la lógica y proporcionó un análisis arquitectónico preciso. Incluso construyó un juego funcional con audio personalizado en una sola pasada.

El auto-alojamiento de IA de vanguardia ahora es posible para desarrolladores individuales. Obtienes privacidad y potencia a un bajo costo.

Fuente: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

Despliegue de GLM 5.2 en Modal

Seguir leyendo

El GLM 5.2 de Zhipu AI acorta la brecha con los gigantes del código de fuente cerrada

Ejecuta GLM 5.2 localmente en tu escritorio

CEO de Snowflake: GLM 5.2 compite con Claude Opus 4.7 por una fracción de su coste