உங்கள் டெஸ்க்டாப்பில் GLM 5.2-ஐ உள்ளூர் முறையில் இயக்கவும்
இப்போது நீங்கள் ஒரு மேம்பட்ட கோடிங் மாடலை (frontier coding model) உங்கள் சொந்த வன்பொருளில் (hardware) இயக்க முடியும். Zhipu நிறுவனம் GLM 5.2 எடைகளை (weights) MIT உரிமத்தின் கீழ் வெளியிட்டுள்ளது. இது ஒரு மாடலைத் தரவிறக்கம் செய்வதை விட, உங்கள் தற்போதைய கணினியால் அதை இயக்க முடியுமா என்பதைக் கண்டறிவதே இலக்காக மாற்றுகிறது.
இந்த மாடல் 753B அளவுருக்களைக் (parameters) கொண்டுள்ளது. முழுத் துல்லியத்தில் (full precision), இதற்கு 1.5 TB RAM தேவைப்படும். இதை ஒரு டெஸ்க்டாப்பில் இயக்க முடியாது. உள்ளூர் முறையில் இயக்க, நீங்கள் குவாண்ட்டைசேஷன் (quantization) முறையைப் பயன்படுத்த வேண்டும். இது நினைவகப் பயன்பாட்டைக் (memory footprint) குறைக்கச் சில தரங்களைச் சமரசம் செய்கிறது.
வெவ்வேறு அமைப்புகள் (setups) இந்த மாடலை எவ்வாறு கையாள்கின்றன என்பது இங்கே:
• Mac Studio M3 Ultra (512 GB): 4-bit quantization-ஐப் பயன்படுத்தவும். இது சிறந்த தரத்தையும் பயன்படுத்தக்கூடிய வேகத்தையும் வழங்கும். • Mac Studio M3 Ultra (256 GB): 2-bit quantization-ஐப் பயன்படுத்தவும். இது ஒரு தனி டெவலப்பருக்கு மிகவும் யதார்த்தமான அமைப்பாகும். உங்களுக்கு ஒரு வினாடிக்கு 3-9 டோக்கன்கள் (tokens) கிடைக்கும். • 4090 + 256 GB DDR5 கொண்ட டெஸ்க்டாப்: 2-bit quantization-ஐப் பயன்படுத்தவும். இது ஆஃப்லோட் (offload) மூலம் இயங்கும் ஆனால் மெதுவாகவே இருக்கும். • MacBook அல்லது 64-128 GB இயந்திரம்: இதை முயற்சிக்க வேண்டாம். அதற்குப் பதிலாக ஒரு ஹோஸ்டட் API-ஐப் பயன்படுத்தவும்.
ஏன் உள்ளூர் முறையில் இயக்க வேண்டும்?
- தனியுரிமை (Privacy): உங்கள் குறியீடு (code) மற்றும் ப்ராம்ப்ட்கள் (prompts) உங்கள் இயந்திரத்தை விட்டு வெளியேறாது.
- ஆஃப்லைன் வேலை: இணைய வசதி இல்லாத (air-gapped) சூழல்களில் இதைப் பயன்படுத்தலாம்.
- இருக்கும் வன்பொருள்: நீங்கள் ஏற்கனவே வாங்கிய Mac Studio-வை மற்ற வேலைகளுக்குப் பயன்படுத்தலாம்.
- கற்றல்: ரேட் லிமிட்கள் (rate limits) இன்றி சாம்பிளிங் அமைப்புகள் (sampling settings) மற்றும் உள்ளூர் எண்ட்பாயிண்ட்களை (local endpoints) சோதிக்கலாம்.
வெற்றிக்கான விதிகள்:
- நினைவகம் அடிப்படைத் தேவை. உங்களுக்குக் குறைந்தபட்சம் 256 GB RAM தேவை. உங்களிடம் குறைவாக இருந்தால், இத்துடன் நிறுத்திக்கொண்டு ஒரு ஹோஸ்டட் பிளானைப் பயன்படுத்தவும்.
- சரியான ரெப்போவை (repo) பயன்படுத்தவும். HuggingFace-ல் உள்ள Unsloth-லிருந்து GGUF quants-களைத் தரவிறக்கவும். அதிகாரப்பூர்வ ரெப்போ உள்ளூர் பயன்பாட்டிற்கு மிகவும் பெரியது.
- உங்கள் கான்டெக்ஸ்டை (context) கவனியுங்கள். உள்ளூர் அமைப்புகள் முழுமையான 1M டோக்கன் விண்டோவை (token window) கையாள்வதில் சிரமப்படுகின்றன. நடைமுறையில் 16K முதல் 64K வரை எதிர்பார்க்கலாம்.
- சரியான அளவுருக்களை (parameters) அமைக்கவும். temperature 1.0, top-p 0.95, மற்றும் min-p 0.01 ஆகியவற்றைப் பயன்படுத்தவும். தவறான அமைப்புகள் மாடலை "முட்டாள்தனமாக" உணரச் செய்யும்.
ஒரு தனி உள்ளூர் இயந்திரம் ஒரு நபருக்கான கருவி மட்டுமே. இரண்டு டெவலப்பர்கள் ஒரே நேரத்தில் இதைப் பயன்படுத்தினால், வேகம் மிகவும் குறையும். குழுக்களுக்கு, உங்களுக்கு டேட்டாசென்டர் GPU-க்கள் அல்லது ஒரு ஹோஸ்டட் API தேவைப்படும்.
ஆதாரம்: https://dev.to/owen_fox/run-glm-52-locally-2026-2-bit-on-a-256gb-mac-or-4090-box-1apn
விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi
