Ejecuta GLM 5.2 localmente en tu ordenador
Ahora puedes ejecutar un modelo de codificación de vanguardia en tu propio hardware. Zhipu ha lanzado los pesos de GLM 5.2 bajo una licencia MIT. Esto cambia el objetivo: ya no se trata de descargar un modelo, sino de comprobar si tu máquina actual puede ejecutarlo.
El modelo tiene 753 mil millones de parámetros. A precisión completa, requiere 1,5 TB de RAM. No puedes ejecutar eso en un ordenador de escritorio. Para ejecutarlo localmente, debes usar cuantización. Esto sacrifica algo de calidad a cambio de una menor huella de memoria.
Así es como diferentes configuraciones gestionan el modelo:
• Mac Studio M3 Ultra (512 GB): Usa cuantización de 4 bits. Esto ofrece la mejor calidad y una velocidad utilizable. • Mac Studio M3 Ultra (256 GB): Usa cuantización de 2 bits. Esta es la configuración más realista para un solo desarrollador. Obtendrás entre 3 y 9 tokens por segundo. • Ordenador de escritorio con 4090 + 256 GB DDR5: Usa cuantización de 2 bits. Se ejecuta mediante offload, pero sigue siendo lento. • MacBook o máquina de 64-128 GB: No lo intentes. Usa una API alojada en su lugar.
¿Por qué ejecutarlo localmente?
- Privacidad: Tu código y tus prompts nunca salen de tu máquina.
- Trabajo offline: Úsalo en entornos aislados (air-gapped).
- Hardware existente: Usa el Mac Studio que ya compraste para otros trabajos.
- Aprendizaje: Prueba configuraciones de muestreo (sampling) y endpoints locales sin límites de velocidad (rate limits).
Reglas para el éxito:
- La memoria es el requisito mínimo. Necesitas al menos 256 GB de RAM. Si tienes menos, detente aquí y usa un plan alojado.
- Usa el repositorio adecuado. Descarga los quants GGUF de Unsloth en HuggingFace. El repositorio oficial es demasiado grande para uso local.
- Vigila tu contexto. Las configuraciones locales tienen dificultades con la ventana completa de 1M de tokens. En la práctica, espera entre 16K y 64K.
- Configura los parámetros correctamente. Usa temperature 1.0, top-p 0.95 y min-p 0.01. Los ajustes incorrectos hacen que el modelo parezca "tonto".
Una sola máquina local es una herramienta para una persona. Si dos desarrolladores la usan a la vez, irá muy lento. Para equipos, necesitas GPUs de centro de datos o una API alojada.
Fuente: https://dev.to/owen_fox/run-glm-52-locally-2026-2-bit-on-a-256gb-mac-or-4090-box-1apn
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi
