તમારા ડેસ્કટોપ પર GLM 5.2 લોકલી ચલાવો

હવે તમે તમારા પોતાના હાર્ડવેર પર એક અત્યાધુનિક કોડિંગ મોડેલ ચલાવી શકો છો. Zhipu એ MIT લાયસન્સ હેઠળ GLM 5.2 weights રિલીઝ કર્યા છે. આનાથી લક્ષ્ય મોડેલ ડાઉનલોડ કરવાથી બદલાઈને એ જોવામાં આવી જાય છે કે તમારું વર્તમાન મશીન તેને ચલાવી શકે છે કે નહીં.

આ મોડેલમાં 753B પેરામીટર્સ છે. ફૂલ પ્રિસિઝન (full precision) પર, તેને 1.5 TB RAM ની જરૂર પડે છે. તમે તેને ડેસ્કટોપ પર ચલાવી શકતા નથી. તેને લોકલી ચલાવવા માટે, તમારે quantization નો ઉપયોગ કરવો પડશે. આ પદ્ધતિ મેમરીનો વપરાશ ઘટાડવા માટે ગુણવત્તામાં થોડો ઘટાડો કરે છે.

વિવિધ સેટઅપ આ મોડેલને કેવી રીતે હેન્ડલ કરે છે તે અહીં છે:

• Mac Studio M3 Ultra (512 GB): 4-bit quantization નો ઉપયોગ કરો. આ શ્રેષ્ઠ ગુણવત્તા અને ઉપયોગી ઝડપ આપે છે. • Mac Studio M3 Ultra (256 GB): 2-bit quantization નો ઉપયોગ કરો. એક સિંગલ ડેવલપર માટે આ સૌથી વાસ્તવિક સેટઅપ છે. તમને પ્રતિ સેકન્ડ 3-9 ટોકન્સ મળશે. • 4090 + 256 GB DDR5 સાથેનું ડેસ્કટોપ: 2-bit quantization નો ઉપયોગ કરો. તે offload દ્વારા ચાલે છે પરંતુ ધીમું રહે છે. • MacBook અથવા 64-128 GB મશીન: આ પ્રયાસ ન કરો. તેના બદલે hosted API નો ઉપયોગ કરો.

તેને લોકલી શા માટે ચલાવવું?

  • પ્રાઈવસી: તમારો કોડ અને પ્રોમ્પ્ટ્સ ક્યારેય તમારા મશીનથી બહાર જશે નહીં.
  • ઓફલાઇન કામ: તેને air-gapped વાતાવરણમાં ઉપયોગ કરો.
  • હાલનું હાર્ડવેર: તમે અન્ય કામ માટે જે Mac Studio ખરીદ્યું છે તેનો જ ઉપયોગ કરો.
  • લર્નિંગ: રેટ લિમિટ્સ વગર સેમ્પલિંગ સેટિંગ્સ અને લોકલ એન્ડપોઇન્ટ્સ ટેસ્ટ કરો.

સફળતા માટેના નિયમો:

  1. મેમરી એ પાયો છે. તમને ઓછામાં ઓછી 256 GB RAM ની જરૂર છે. જો તમારી પાસે તેનાથી ઓછી હોય, તો અહીં જ અટકી જાઓ અને hosted પ્લાનનો ઉપયોગ કરો.
  2. સાચું રિપો (repo) વાપરો. HuggingFace પર Unsloth પરથી GGUF quants ડાઉનલોડ કરો. સત્તાવાર રિપો લોકલ ઉપયોગ માટે ખૂબ મોટી છે.
  3. તમારા કોન્ટેક્સ્ટ (context) પર ધ્યાન આપો. લોકલ સેટઅપ 1M ટોકન વિન્ડો સાથે સંઘર્ષ કરે છે. વ્યવહારમાં 16K થી 64K ની અપેક્ષા રાખો.
  4. સાચા પેરામીટર્સ સેટ કરો. temperature 1.0, top-p 0.95, અને min-p 0.01 નો ઉપયોગ કરો. ખોટી સેટિંગ્સ મોડેલને "મૂર્ખ" બનાવી દેશે.

એક સિંગલ લોકલ મશીન એક વ્યક્તિ માટેનું સાધન છે. જો બે ડેવલપર્સ એકસાથે તેનો ઉપયોગ કરશે, તો તે ખૂબ જ ધીમું થઈ જશે. ટીમો માટે, તમારે ડેટા સેન્ટર GPUs અથવા hosted API ની જરૂર પડશે.

સ્ત્રોત: https://dev.to/owen_fox/run-glm-52-locally-2026-2-bit-on-a-256gb-mac-or-4090-box-1apn

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi