Deploying GLM 5.2 On Modal

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 వారాల క్రితం2min read

Deploying GLM-5.2 On Modal

GLM-5.2 అనేది ఒక భారీ open-weights మోడల్. ఇది సంక్లిష్టమైన రీజనింగ్ మరియు కోడింగ్ కోసం Mixture-of-Experts (MoE) ఆర్కిటెక్చర్‌ను ఉపయోగిస్తుంది. ఇంజనీరింగ్ పనులలో ఇది Claude 3.5 Sonnet వంటి మోడళ్లతో సమానంగా పనిచేస్తుంది.

ఈ 700B పారామీటర్ల మోడల్‌ను సెల్ఫ్-హోస్ట్ చేయడానికి 8x NVIDIA H200 GPUs అవసరం. Modal పై సర్వర్‌లెస్ విధానాన్ని ఉపయోగించి నేను దీనిని ఎలా డిప్లాయ్ చేశానో ఇక్కడ చూడండి.

The Cost Benefit ఒక ప్రత్యేకమైన 8x H200 నోడ్‌ను అద్దెకు తీసుకోవడం ఖరీదైనది.

RunPod గంటకు $35.12 ఖర్చవుతుంది.
Modal గంటకు $36.31 ఖర్చవుతుంది.

అయితే, Modal సెకనుకు బిల్లు చేస్తుంది. మీరు దానిని ఉపయోగించనప్పుడు ఇది స్కేల్-టు-జీరో (scale to zero) అవుతుంది. 20 నిమిషాల డెవలప్‌మెంట్ సెషన్ సుమారు $12.00 ఖర్చవుతుంది. మీరు యాక్టివ్‌గా లేనప్పుడు, ఖర్చు $0.00.

Quantization Trade-offs మీరు పూర్తి BF16 మోడల్‌ను ఒకే నోడ్‌పై రన్ చేయలేరు. దీనికి 1.5 TB VRAM అవసరం. ఉత్తమ సమతుల్యతను కనుగొనడానికి నేను వివిధ ఫార్మాట్‌లను పరీక్షించాను:

FP8: ~700 GB అవసరం. ఇది 99.2% ఖచ్చితత్వాన్ని నిలుపుతుంది. ఇది ఉత్తమ ఎంపిక. వేగవంతమైన పనితీరు కోసం ఇది Hopper నేటివ్ Tensor Coresని ఉపయోగిస్తుంది.
INT8: ~750 GB అవసరం. హార్డ్‌వేర్ ఆప్టిమైజేషన్ లేకపోవడం వల్ల ఇది నెమ్మదిగా ఉంటుంది.
INT4: ~400 GB అవసరం. రీజనింగ్ పనులలో ఖచ్చితత్వం గణనీయంగా తగ్గుతుంది.

Why Self-Host?

Privacy: మీ సున్నితమైన కోడ్‌ను మీ స్వంత సురక్షిత నెట్‌వర్క్‌లోనే ఉంచుకోండి.
No Limits: పబ్లిక్ APIలలో ఉండే రేట్ లిమిట్స్ (rate limits) మరియు కాంటెక్స్ట్ త్రోటలింగ్ (context throttling) నుండి తప్పించుకోవచ్చు.
Stable Cache: మీరు GPU మెమరీని నియంత్రించవచ్చు. మీ కాంటెక్స్ట్ క్యాష్ వేడిగా (warm) మరియు స్థిరంగా ఉంటుంది.

Technical Lessons

Fix Import Errors: క్రాష్‌లు రాకుండా ఉండటానికి Dockerfileలో పాత typing_extensions మాడ్యూల్‌ను నేను తొలగించాల్సి వచ్చింది.
Speed Up Loading: ప్రిఫెచ్ (prefetch) వ్యూహాన్ని ఉపయోగించడం వల్ల మోడల్ లోడింగ్ సమయం 12 నిమిషాల నుండి 1 నిమిషానికి తగ్గింది.
Use Eager Mode: గణిత గ్రాఫ్‌లను కంపైల్ చేయడానికి 20 నిమిషాలు పట్టింది. Eager mode 4.5 నిమిషాల్లో ప్రారంభమవుతుంది. మొదటి క్వెరీ వద్ద మీకు స్వల్ప ఆలస్యం కనిపించవచ్చు, కానీ వేగవంతమైన స్టార్టప్ కోసం ఇది విలువైనదే.

The Result ఈ మోడల్ భారీ ఫైళ్లను సులభంగా హ్యాండిల్ చేస్తుంది. నేను దీనిని 1,000+ లైన్ల Python కోడ్‌తో పరీక్షించాను. ఇది లాజిక్‌ను విశ్లేషించి, ఖచ్చితమైన ఆర్కిటెక్చరల్ అనాలిసిస్‌ను అందించింది. ఇది ఒకేసారి కస్టమ్ ఆడియోతో కూడిన ఫంక్షనల్ గేమ్‌ను కూడా రూపొందించింది.

ఫ్రాంటియర్ AIని సెల్ఫ్-హోస్ట్ చేయడం ఇప్పుడు వ్యక్తిగత డెవలపర్‌లకు సాధ్యమవుతుంది. తక్కువ ఖర్చుతో మీరు గోప్యత మరియు శక్తిని పొందవచ్చు.

Source: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

Optional learning community: https://t.me/GyaanSetuAi

Deploying GLM 5.2 On Modal

Continue reading

Zhipu AI's GLM 5.2 Closes the Gap with Closed Source Coding Giants

మీ డెస్క్‌టాప్‌పై GLM 5.2ని స్థానికంగా రన్ చేయండి

Snowflake CEO: GLM 5.2 Rivals Claude Opus 4.7 at a Fraction of the Cost