तुमच्या डेस्कटॉपवर GLM 5.2 स्थानिकरीत्या (Locally) चालवा
आता तुम्ही तुमच्या स्वतःच्या हार्डवेअरवर एक प्रगत कोडिंग मॉडेल चालवू शकता. Zhipu ने MIT लायसन्स अंतर्गत GLM 5.2 weights रिलीज केले आहेत. यामुळे आता उद्दिष्ट मॉडेल डाउनलोड करण्याऐवजी, तुमचे सध्याचे मशीन ते चालवू शकते का हे पाहण्याकडे वळले आहे.
या मॉडेलमध्ये 753B पॅरामीटर्स आहेत. पूर्ण अचूकतेसह (full precision), यासाठी 1.5 TB RAM ची आवश्यकता असते. तुम्ही ते डेस्कटॉपवर चालवू शकत नाही. स्थानिकरीत्या चालवण्यासाठी, तुम्हाला quantization वापरावे लागेल. यामुळे मेमरीचा वापर कमी करण्यासाठी गुणवत्तेशी थोडी तडजोड करावी लागते.
वेगवेगळ्या सेटअप्समध्ये हे मॉडेल कसे हाताळले जाते ते खालीलप्रमाणे आहे:
• Mac Studio M3 Ultra (512 GB): 4-bit quantization वापरा. यामुळे सर्वोत्तम गुणवत्ता आणि वापरण्यायोग्य वेग मिळतो. • Mac Studio M3 Ultra (256 GB): 2-bit quantization वापरा. एका डेव्हलपरसाठी ही सर्वात वास्तववादी मांडणी (setup) आहे. तुम्हाला प्रति सेकंद 3-9 tokens मिळतील. • 4090 + 256 GB DDR5 असलेला डेस्कटॉप: 2-bit quantization वापरा. हे offload द्वारे चालते परंतु वेग मंद राहतो. • MacBook किंवा 64-128 GB मशीन: हे करण्याचा प्रयत्न करू नका. त्याऐवजी hosted API वापरा.
स्थानिकरीत्या का चालवावे?
- गोपनीयता (Privacy): तुमचा कोड आणि प्रॉम्प्ट्स कधीही तुमच्या मशीनच्या बाहेर जात नाहीत.
- ऑफलाइन काम: एअर-गॅप्ड (air-gapped) वातावरणात याचा वापर करा.
- उपलब्ध हार्डवेअर: तुम्ही इतर कामांसाठी आधीच खरेदी केलेले Mac Studio वापरा.
- शिकण्यासाठी: रेट लिमिट्सशिवाय (rate limits) सॅम्पलिंग सेटिंग्स आणि लोकल एंडपॉइंट्स तपासा.
यशस्वी होण्यासाठी नियम:
- मेमरी ही किमान गरज आहे. तुम्हाला किमान 256 GB RAM आवश्यक आहे. जर तुमच्याकडे त्यापेक्षा कमी असेल, तर इथेच थांबा आणि hosted प्लॅन वापरा.
- योग्य रिपॉझिटरी (repo) वापरा. HuggingFace वरील Unsloth कडून GGUF quants डाउनलोड करा. अधिकृत रिपॉझिटरी स्थानिक वापरासाठी खूप मोठी आहे.
- तुमच्या कॉन्टेक्स्टवर (context) लक्ष द्या. स्थानिक सेटअप्सना पूर्ण 1M टोकन विंडो हाताळताना अडचण येते. प्रत्यक्ष वापरात 16K ते 64K ची अपेक्षा ठेवा.
- योग्य पॅरामीटर्स सेट करा. temperature 1.0, top-p 0.95, आणि min-p 0.01 वापरा. चुकीच्या सेटिंग्समुळे मॉडेल "मूर्ख" वाटू शकते.
एक सिंगल लोकल मशीन हे एका व्यक्तीसाठी साधन आहे. जर दोन डेव्हलपर्सनी एकाच वेळी याचा वापर केला, तर त्याचा वेग अत्यंत मंद होईल. टीमसाठी, तुम्हाला डेटासेंटर GPUs किंवा hosted API ची आवश्यकता असेल.
स्रोत: https://dev.to/owen_fox/run-glm-52-locally-2026-2-bit-on-a-256gb-mac-or-4090-box-1apn
वैकल्पिक शिक्षण समुदाय: https://t.me/GyaanSetuAi
