Deploying GLM 5.2 On Modal

Translated for your language. Read the original.

AI-assisted draft.

Modal 'ਤੇ GLM-5.2 ਨੂੰ ਡਿਪਲੋਏ ਕਰਨਾ

GLM-5.2 ਇੱਕ ਬਹੁਤ ਵੱਡਾ open-weights ਮਾਡਲ ਹੈ। ਇਹ ਗੁੰਝਲਦਾਰ ਤਰਕ (reasoning) ਅਤੇ ਕੋਡਿੰਗ ਲਈ Mixture-of-Experts (MoE) ਆਰਕੀਟੈਕਚਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਇੰਜੀਨੀਅਰਿੰਗ ਕੰਮਾਂ ਵਿੱਚ Claude 3.5 Sonnet ਵਰਗੇ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਹੈ।

ਇਸ 700B ਪੈਰਾਮੀਟਰ ਵਾਲੇ ਮਾਡਲ ਨੂੰ ਸੈਲਫ-ਹੋਸਟ ਕਰਨ ਲਈ 8x NVIDIA H200 GPUs ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇੱਥੇ ਦੱਸਿਆ ਗਿਆ ਹੈ ਕਿ ਮੈਂ Modal 'ਤੇ ਇੱਕ serverless ਪਹੁੰਚ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਸਨੂੰ ਕਿਵੇਂ ਡਿਪਲੋਏ ਕੀਤਾ।

ਲਾਗਤ ਦਾ ਲਾਭ ਇੱਕ ਸਮਰਪਿਤ (dedicated) 8x H200 ਨੋਡ ਕਿਰਾਏ 'ਤੇ ਲੈਣਾ ਮਹਿੰਗਾ ਹੈ।

RunPod ਦੀ ਲਾਗਤ $35.12 ਪ੍ਰਤੀ ਘੰਟਾ ਹੈ।
Modal ਦੀ ਲਾਗਤ $36.31 ਪ੍ਰਤੀ ਘੰਟਾ ਹੈ।

ਹਾਲਾਂਕਿ, Modal ਸਕਿੰਟ ਦੇ ਹਿਸਾਬ ਨਾਲ ਬਿੱਲ ਬਣਾਉਂਦਾ ਹੈ। ਜਦੋਂ ਤੁਸੀਂ ਇਸਦੀ ਵਰਤੋਂ ਨਹੀਂ ਕਰ ਰਹੇ ਹੁੰਦੇ, ਤਾਂ ਇਹ scale to zero ਹੋ ਜਾਂਦਾ ਹੈ। 20 ਮਿੰਟ ਦੇ ਡਿਵੈਲਪਮੈਂਟ ਸੈਸ਼ਨ ਦੀ ਲਾਗਤ ਲਗਭਗ $12.00 ਹੈ। ਜਦੋਂ ਤੁਸੀਂ ਗੈਰ-ਸਰਗਰਮ (inactive) ਹੁੰਦੇ ਹੋ, ਤਾਂ ਲਾਗਤ $0.00 ਹੁੰਦੀ ਹੈ।

ਕਵਾਨਟਾਈਜ਼ੇਸ਼ਨ ਦੇ ਸਮਝੌਤੇ (Quantization Trade-offs) ਤੁਸੀਂ ਇੱਕ ਨੋਡ 'ਤੇ ਪੂਰਾ BF16 ਮਾਡਲ ਨਹੀਂ ਚਲਾ ਸਕਦੇ। ਇਸਨੂੰ 1.5 TB VRAM ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਮੈਂ ਸਭ ਤੋਂ ਵਧੀਆ ਸੰਤੁਲਨ ਲੱਭਣ ਲਈ ਵੱਖ-ਵੱਖ ਫਾਰਮੈਟਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ:

FP8: ਲਗਭਗ ~700 GB ਦੀ ਲੋੜ ਹੈ। ਇਹ 99.2% ਸ਼ੁੱਧਤਾ (accuracy) ਬਣਾਈ ਰੱਖਦਾ ਹੈ। ਇਹ ਸਭ ਤੋਂ ਵਧੀਆ ਚੋਣ ਹੈ। ਇਹ ਤੇਜ਼ ਰਫ਼ਤਾਰ ਲਈ Hopper native Tensor Cores ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
INT8: ਲਗਭਗ ~750 GB ਦੀ ਲੋੜ ਹੈ। ਇਹ ਹਾਰਡਵੇਅਰ ਆਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਦੀ ਘਾਟ ਕਾਰਨ ਹੌਲੀ ਹੈ।
INT4: ਲਗਭਗ ~400 GB ਦੀ ਲੋੜ ਹੈ। ਤਰਕ (reasoning) ਵਾਲੇ ਕੰਮਾਂ ਵਿੱਚ ਸ਼ੁੱਧਤਾ ਕਾਫ਼ੀ ਘਟ ਜਾਂਦੀ ਹੈ।

ਸੈਲਫ-ਹੋਸਟ ਕਿਉਂ ਕਰੀਏ?

ਪ੍ਰਾਈਵੇਸੀ: ਆਪਣੇ ਸੰਵੇਦਨਸ਼ੀਲ ਕੋਡ ਨੂੰ ਆਪਣੇ ਖੁਦ ਦੇ ਸੁਰੱਖਿਅਤ ਨੈੱਟਵਰਕ ਦੇ ਅੰਦਰ ਰੱਖੋ।
ਕੋਈ ਸੀਮਾ ਨਹੀਂ: ਪਬਲਿਕ APIs 'ਤੇ ਮਿਲਣ ਵਾਲੀਆਂ ਰੇਟ ਲਿਮਿਟਾਂ ਅਤੇ context throttling ਤੋਂ ਬਚੋ।
ਸਥਿਰ ਕੈਸ਼ (Stable Cache): ਤੁਸੀਂ GPU ਮੈਮੋਰੀ ਨੂੰ ਕੰਟਰੋਲ ਕਰਦੇ ਹੋ। ਤੁਹਾਡਾ context cache ਵਾਰਮ ਅਤੇ ਸਥਿਰ ਰਹਿੰਦਾ ਹੈ।

ਤਕਨੀਕੀ ਸਬਕ

ਇੰਪੋਰਟ ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਨਾ: ਕ੍ਰੈਸ਼ਾਂ ਨੂੰ ਰੋਕਣ ਲਈ ਮੈਨੂੰ Dockerfile ਵਿੱਚ ਇੱਕ ਪੁਰਾਣੇ (legacy) typing_extensions ਮੋਡਿਊਲ ਨੂੰ ਡਿਲੀਟ ਕਰਨਾ ਪਿਆ।
ਲੋਡਿੰਗ ਦੀ ਰਫ਼ਤਾਰ ਵਧਾਉਣਾ: prefetch strategy ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ ਮਾਡਲ ਲੋਡ ਹੋਣ ਦਾ ਸਮਾਂ 12 ਮਿੰਟ ਤੋਂ ਘਟਾ ਕੇ 1 ਮਿੰਟ ਕਰ ਦਿੱਤਾ ਗਿਆ।
Eager Mode ਦੀ ਵਰਤੋਂ ਕਰੋ: ਗਣਿਤਕ ਗ੍ਰਾਫਾਂ (mathematical graphs) ਨੂੰ ਕੰਪਾਈਲ ਕਰਨ ਵਿੱਚ 20 ਮਿੰਟ ਲੱਗੇ। Eager mode 4.5 ਮਿੰਟ ਵਿੱਚ ਸ਼ੁਰੂ ਹੋ ਜਾਂਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਪਹਿਲੀ ਕੁਐਰੀ (query) 'ਤੇ ਥੋੜ੍ਹੀ ਦੇਰੀ ਦਿਖਾਈ ਦੇ ਸਕਦੀ ਹੈ, ਪਰ ਇਹ ਤੇਜ਼ ਸ਼ੁਰੂਆਤ ਲਈ ਬਹੁਤ ਫਾਇਦੇਮੰਦ ਹੈ।

ਨਤੀਜਾ ਮਾਡਲ ਵੱਡੀਆਂ ਫਾਈਲਾਂ ਨੂੰ ਆਸਾਨੀ ਨਾਲ ਸੰਭਾਲ ਲੈਂਦਾ ਹੈ। ਮੈਂ ਇਸਦਾ ਟੈਸਟ 1,000+ ਲਾਈਨਾਂ ਦੇ Python ਕੋਡ ਨਾਲ ਕੀਤਾ। ਇਸਨੇ ਲੌਜਿਕ ਨੂੰ ਪਾਰਸ ਕੀਤਾ ਅਤੇ ਸਹੀ ਆਰਕੀਟੈਕਚਰਲ ਵਿਸ਼ਲੇਸ਼ਣ ਪ੍ਰਦਾਨ ਕੀਤਾ। ਇਸਨੇ ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਕਸਟਮ ਆਡੀਓ ਦੇ ਨਾਲ ਇੱਕ ਕਾਰਜਸ਼ੀਲ ਗੇਮ ਵੀ ਬਣਾਈ।

ਹੁਣ ਵਿਅਕਤੀਗਤ ਡਿਵੈਲਪਰਾਂ ਲਈ ਫਰੰਟੀਅਰ AI ਨੂੰ ਸੈਲਫ-ਹੋਸਟ ਕਰਨਾ ਸੰਭਵ ਹੈ। ਤੁਹਾਨੂੰ ਘੱਟ ਲਾਗਤ 'ਤੇ ਪ੍ਰਾਈਵੇਸੀ ਅਤੇ ਸ਼ਕਤੀ ਮਿਲਦੀ ਹੈ।

ਸਰੋਤ: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

Deploying GLM 5.2 On Modal

Continue reading

Zhipu AI's GLM 5.2 Closes the Gap with Closed Source Coding Giants

Run GLM 5.2 Locally on Your Desktop

Snowflake CEO: GLM 5.2 Rivals Claude Opus 4.7 at a Fraction of the Cost