Modal पर GLM 5.2 को डिप्लॉय करना

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial2 सप्ताह पहले2मिनट पढ़ें

Modal पर GLM-5.2 को डिप्लॉय करना

GLM-5.2 एक विशाल open-weights मॉडल है। यह जटिल रीजनिंग और कोडिंग के लिए Mixture-of-Experts (MoE) आर्किटेक्चर का उपयोग करता है। यह इंजीनियरिंग कार्यों में Claude 3.5 Sonnet जैसे मॉडलों के बराबर है।

इस 700B पैरामीटर वाले मॉडल को सेल्फ-होस्ट करने के लिए 8x NVIDIA H200 GPUs की आवश्यकता होती है। यहाँ बताया गया है कि मैंने Modal पर सर्वरलेस अप्रोच का उपयोग करके इसे कैसे डिप्लॉय किया।

लागत का लाभ एक समर्पित 8x H200 नोड किराए पर लेना महंगा है।

RunPod की लागत $35.12 प्रति घंटा है।
Modal की लागत $36.31 प्रति घंटा है।

हालाँकि, Modal प्रति सेकंड के हिसाब से बिल करता है। जब आप इसका उपयोग नहीं कर रहे होते हैं, तो यह स्केल टू ज़ीरो (scale to zero) हो जाता है। 20 मिनट के डेवलपमेंट सेशन की लागत लगभग $12.00 होती है। जब आप निष्क्रिय होते हैं, तो लागत $0.00 होती है।

क्वांटाइजेशन ट्रेड-ऑफ्स आप एक नोड पर पूरा BF16 मॉडल नहीं चला सकते। इसके लिए 1.5 TB VRAM की आवश्यकता होती है। मैंने सबसे अच्छा संतुलन खोजने के लिए विभिन्न फॉर्मेट्स का परीक्षण किया:

FP8: ~700 GB की आवश्यकता होती है। यह 99.2% सटीकता बनाए रखता है। यह सबसे अच्छा विकल्प है। यह तेज़ गति के लिए Hopper native Tensor Cores का उपयोग करता है।
INT8: ~750 GB की आवश्यकता होती है। यह धीमा है क्योंकि इसमें हार्डवेयर ऑप्टिमाइज़ेशन की कमी है।
INT4: ~400 GB की आवश्यकता होती है। रीजनिंग कार्यों में सटीकता काफी कम हो जाती है।

सेल्फ-होस्ट क्यों करें?

प्राइवेसी: अपने संवेदनशील कोड को अपने स्वयं के सुरक्षित नेटवर्क के भीतर रखें।
कोई सीमा नहीं: पब्लिक APIs पर मिलने वाली रेट लिमिट्स और कॉन्टेक्स्ट थ्रॉटलिंग से बचें।
स्टेबल कैश: आप GPU मेमोरी को नियंत्रित करते हैं। आपका कॉन्टेक्स्ट कैश वार्म और स्टेबल रहता है।

तकनीकी सबक

इम्पोर्ट एरर्स को ठीक करना: क्रैश को रोकने के लिए मुझे Dockerfile में एक legacy typing_extensions मॉड्यूल को डिलीट करना पड़ा।
लोडिंग तेज़ करना: प्रीफ़etch रणनीति का उपयोग करने से मॉडल लोडिंग का समय 12 मिनट से घटकर 1 मिनट रह गया।
Eager Mode का उपयोग करें: मैथमेटिकल ग्राफ को कंपाइल करने में 20 मिनट लग रहे थे। Eager mode 4.5 मिनट में शुरू हो जाता है। आपको पहली क्वेरी पर थोड़ा विलंब दिख सकता है, लेकिन तेज़ स्टार्टअप के लिए यह इसके लायक है।

परिणाम मॉडल बड़ी फ़ाइलों को आसानी से संभाल लेता है। मैंने इसका परीक्षण 1,000+ लाइनों के Python कोड के साथ किया। इसने लॉजिक को पार्स किया और सटीक आर्किटेक्चरल विश्लेषण प्रदान किया। इसने एक ही बार में कस्टम ऑडियो के साथ एक कार्यात्मक गेम भी बना दिया।

व्यक्तिगत डेवलपर्स के लिए अब फ्रंटियर AI को सेल्फ-होस्ट करना संभव है। आपको कम लागत पर प्राइवेसी और पावर मिलती है।

स्रोत: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

Modal पर GLM 5.2 को डिप्लॉय करना

पढ़ना जारी रखें

Zhipu AI का GLM 5.2 क्लोज्ड सोर्स कोडिंग दिग्गजों के बीच के अंतर को कम कर रहा है

अपने डेस्कटॉप पर GLM 5.2 को स्थानीय रूप से चलाएं

Snowflake CEO: GLM 5.2 बहुत कम लागत पर Claude Opus 4.7 को टक्कर दे रहा है