अपने डेस्कटॉप पर GLM 5.2 को स्थानीय रूप से चलाएं
अब आप अपने स्वयं के हार्डवेयर पर एक frontier coding model चला सकते हैं। Zhipu ने MIT लाइसेंस के तहत GLM 5.2 weights रिलीज़ किए हैं। इससे लक्ष्य मॉडल डाउनलोड करने से बदलकर यह देखने का हो गया है कि क्या आपका वर्तमान सिस्टम इसे चला सकता है।
इस मॉडल में 753B पैरामीटर्स हैं। फुल प्रिसिजन (full precision) पर, इसे 1.5 TB RAM की आवश्यकता होती है। आप इसे डेस्कटॉप पर नहीं चला सकते। इसे स्थानीय रूप से चलाने के लिए, आपको quantization का उपयोग करना होगा। यह कम मेमोरी फुटप्रिंट के लिए कुछ गुणवत्ता (quality) का त्याग करता है।
यहाँ विभिन्न सेटअप दिए गए हैं कि वे मॉडल को कैसे संभालते हैं:
• Mac Studio M3 Ultra (512 GB): 4-bit quantization का उपयोग करें। यह सबसे अच्छी गुणवत्ता और उपयोगी गति प्रदान करता है। • Mac Studio M3 Ultra (256 GB): 2-bit quantization का उपयोग करें। एक अकेले डेवलपर के लिए यह सबसे व्यावहारिक सेटअप है। आपको प्रति सेकंड 3-9 टोकन मिलेंगे। • 4090 + 256 GB DDR5 वाला डेस्कटॉप: 2-bit quantization का उपयोग करें। यह offload के माध्यम से चलता है लेकिन धीमा रहता है। • MacBook या 64-128 GB वाली मशीन: इसे आज़माने की कोशिश न करें। इसके बजाय एक hosted API का उपयोग करें।
इसे स्थानीय रूप से क्यों चलाएं?
- गोपनीयता (Privacy): आपका कोड और प्रॉम्प्ट कभी भी आपके सिस्टम से बाहर नहीं जाते।
- ऑफलाइन काम: इसका उपयोग air-gapped वातावरण में करें।
- मौजूदा हार्डवेयर: उस Mac Studio का उपयोग करें जिसे आपने पहले ही अन्य कार्यों के लिए खरीदा है।
- सीखना: बिना किसी rate limits के सैंपलिंग सेटिंग्स और लोकल एंडपॉइंट्स का परीक्षण करें।
सफलता के नियम:
- मेमोरी न्यूनतम आवश्यकता है। आपको कम से कम 256 GB RAM की आवश्यकता है। यदि आपके पास इससे कम है, तो यहीं रुकें और एक hosted प्लान का उपयोग करें।
- सही रिपॉजिटरी (repo) का उपयोग करें। HuggingFace पर Unsloth से GGUF quants डाउनलोड करें। आधिकारिक रिपॉजिटरी स्थानीय उपयोग के लिए बहुत बड़ी है।
- अपने कॉन्टेक्स्ट (context) का ध्यान रखें। लोकल सेटअप 1M टोकन की पूरी विंडो के साथ संघर्ष करते हैं। व्यवहार में 16K से 64K की अपेक्षा करें।
- सही पैरामीटर्स सेट करें। temperature 1.0, top-p 0.95, और min-p 0.01 का उपयोग करें। गलत सेटिंग्स मॉडल को "बेवकूफ" बना सकती हैं।
एक अकेला लोकल मशीन एक व्यक्ति के लिए उपकरण है। यदि दो डेवलपर एक साथ इसका उपयोग करते हैं, तो यह बहुत धीमा हो जाएगा। टीमों के लिए, आपको डेटासेंटर GPU या hosted API की आवश्यकता होगी।
स्रोत: https://dev.to/owen_fox/run-glm-52-locally-2026-2-bit-on-a-256gb-mac-or-4090-box-1apn
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi
