Deploying GLM 5.2 On Modal

Translated for your language. Read the original.

AI-assisted draft.

In this article

Modal پر GLM-5.2 کی تعیناتی

GLM-5.2 ایک بہت بڑا open-weights ماڈل ہے۔ یہ پیچیدہ استدلال (reasoning) اور کوڈنگ کے لیے Mixture-of-Experts (MoE) آرکیٹیکچر کا استعمال کرتا ہے۔ یہ انجینئرنگ کے کاموں میں Claude 3.5 Sonnet جیسے ماڈلز کے برابر ہے۔

اس 700B پیرامیٹر والے ماڈل کو خود ہوسٹ (self-host) کرنے کے لیے 8x NVIDIA H200 GPUs کی ضرورت ہوتی ہے۔ یہاں میں نے Modal پر سرور لیس (serverless) طریقہ کار استعمال کرتے ہوئے اسے تعینات کرنے کا طریقہ بتایا ہے۔

لاگت کا فائدہ

ایک مخصوص 8x H200 نوڈ کرایے پر لینا مہنگا ہے۔

RunPod کی قیمت $35.12 فی گھنٹہ ہے۔
Modal کی قیمت $36.31 فی گھنٹہ ہے۔

تاہم، Modal سیکنڈ کے حساب سے بل کرتا ہے۔ جب آپ اسے استعمال نہیں کر رہے ہوتے تو یہ اسکیل (scale) ہو کر زیرو پر آ جاتا ہے۔ 20 منٹ کے ڈویلپمنٹ سیشن کی قیمت تقریباً $12.00 ہے۔ جب آپ غیر فعال (inactive) ہوں، تو قیمت $0.00 ہوتی ہے۔

کوانٹائزیشن کے متبادل (Quantization Trade-offs)

آپ ایک نوڈ پر مکمل BF16 ماڈل نہیں چلا سکتے۔ اس کے لیے 1.5 TB VRAM درکار ہوتی ہے۔ میں نے بہترین توازن تلاش کرنے کے لیے مختلف فارمیٹس کا تجربہ کیا:

FP8: تقریباً 700 GB درکار ہے۔ یہ 99.2% درستگی برقرار رکھتا ہے۔ یہ بہترین انتخاب ہے۔ یہ تیز رفتار کے لیے Hopper native Tensor Cores کا استعمال کرتا ہے۔
INT8: تقریباً 750 GB درکار ہے۔ یہ سست ہے کیونکہ اس میں ہارڈ ویئر آپٹیمائزیشن کی کمی ہے۔
INT4: تقریباً 400 GB درکار ہے۔ استدلال (reasoning) کے کاموں میں درستگی نمایاں طور پر گر جاتی ہے۔

خود ہوسٹ کیوں کریں؟

رازداری: اپنے حساس کوڈ کو اپنے ہی محفوظ نیٹ ورک کے اندر رکھیں۔
کوئی حد نہیں: پبلک APIs پر پائے جانے والے ریٹ لمٹس (rate limits) اور کانٹیکسٹ تھروٹلنگ (context throttling) سے بچیں۔
مستحکم کیش (Cache): آپ GPU میموری کو کنٹرول کرتے ہیں۔ آپ کا کانٹیکسٹ کیش گرم اور مستحکم رہتا ہے۔

تکنیکی اسباق

امپورٹ ایررز کو ٹھیک کرنا: کریشز سے بچنے کے لیے مجھے Dockerfile میں ایک پرانے typing_extensions ماڈیول کو ڈیلیٹ کرنا پڑا۔
لوڈنگ کی رفتار بڑھانا: پری فچ (prefetch) حکمت عملی استعمال کرنے سے ماڈل لوڈ ہونے کا وقت 12 منٹ سے کم ہو کر 1 منٹ رہ گیا۔
ایگر موڈ (Eager Mode) کا استعمال: ریاضیاتی گراف کو کمپائل کرنے میں 20 منٹ لگتے تھے۔ ایگر موڈ 4.5 منٹ میں شروع ہو جاتا ہے۔ آپ کو پہلی کوئری پر تھوڑی تاخیر نظر آ سکتی ہے، لیکن یہ تیز آغاز کے لیے قابلِ ذکر ہے۔

نتیجہ

ماڈل بڑی فائلوں کو آسانی سے سنبھال لیتا ہے۔ میں نے اسے 1,000+ لائنوں کے Python کوڈ کے ساتھ ٹیسٹ کیا۔ اس نے منطق (logic) کو سمجھا اور درست آرکیٹیکچرل تجزیہ فراہم کیا۔ اس نے ایک ہی بار میں کسٹم آڈیو کے ساتھ ایک فنکشنل گیم بھی بنائی۔

انفرادی ڈویلپرز کے لیے اب فرنٹیر AI (frontier AI) کو خود ہوسٹ کرنا ممکن ہے۔ آپ کم لاگت پر رازداری اور طاقت حاصل کرتے ہیں۔

Source: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

Optional learning community: https://t.me/GyaanSetuAi

Deploying GLM 5.2 On Modal

Modal پر GLM-5.2 کی تعیناتی

لاگت کا فائدہ

کوانٹائزیشن کے متبادل (Quantization Trade-offs)

خود ہوسٹ کیوں کریں؟

تکنیکی اسباق

نتیجہ

Continue reading

Zhipu AI's GLM 5.2 Closes the Gap with Closed Source Coding Giants

اپنے ڈیسک ٹاپ پر GLM 5.2 مقامی طور پر چلائیں

Snowflake کے سی ای او: GLM 5.2 بہت کم قیمت پر Claude Opus 4.7 کا مقابلہ کرتا ہے