ਆਪਣੇ ਡੈਸਕਟੌਪ 'ਤੇ GLM 5.2 ਨੂੰ ਲੋਕਲ ਤੌਰ 'ਤੇ ਚਲਾਓ

ਹੁਣ ਤੁਸੀਂ ਆਪਣੇ ਹਾਰਡਵੇਅਰ 'ਤੇ ਇੱਕ ਅਤਿ-ਆਧੁਨਿਕ (frontier) ਕੋਡਿੰਗ ਮਾਡਲ ਚਲਾ ਸਕਦੇ ਹੋ। Zhipu ਨੇ MIT ਲਾਇਸੈਂਸ ਦੇ ਤਹਿਤ GLM 5.2 weights ਜਾਰੀ ਕੀਤੇ ਹਨ। ਇਹ ਮਾਡਲ ਨੂੰ ਡਾਊਨਲੋਡ ਕਰਨ ਦੇ ਉਦੇਸ਼ ਨੂੰ ਬਦਲ ਕੇ ਇਹ ਦੇਖਣ ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ ਕਿ ਕੀ ਤੁਹਾਡੀ ਮੌਜੂਦਾ ਮਸ਼ੀਨ ਇਸਨੂੰ ਚਲਾ ਸਕਦੀ ਹੈ ਜਾਂ ਨਹੀਂ।

ਇਸ ਮਾਡਲ ਵਿੱਚ 753B ਪੈਰਾਮੀਟਰ ਹਨ। ਫੁੱਲ ਪ੍ਰੀਸੀਜ਼ਨ (full precision) 'ਤੇ, ਇਸਨੂੰ 1.5 TB RAM ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਤੁਸੀਂ ਇਸਨੂੰ ਡੈਸਕਟੌਪ 'ਤੇ ਨਹੀਂ ਚਲਾ ਸਕਦੇ। ਇਸਨੂੰ ਲੋਕਲ ਤੌਰ 'ਤੇ ਚਲਾਉਣ ਲਈ, ਤੁਹਾਨੂੰ quantization ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਪਵੇਗੀ। ਇਹ ਘੱਟ ਮੈਮੋਰੀ ਦੀ ਵਰਤੋਂ ਲਈ ਕੁਝ ਕੁਆਲਿਟੀ ਨਾਲ ਸਮਝੌਤਾ ਕਰਦਾ ਹੈ।

ਇੱਥੇ ਵੱਖ-ਵੱਖ ਸੈੱਟਅੱਪ ਮਾਡਲ ਨੂੰ ਕਿਵੇਂ ਸੰਭਾਲਦੇ ਹਨ:

• Mac Studio M3 Ultra (512 GB): 4-bit quantization ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇਹ ਸਭ ਤੋਂ ਵਧੀਆ ਕੁਆਲਿਟੀ ਅਤੇ ਵਰਤੋਂਯੋਗ ਸਪੀਡ ਦਿੰਦਾ ਹੈ। • Mac Studio M3 Ultra (256 GB): 2-bit quantization ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇੱਕ ਸਿੰਗਲ ਡਿਵੈਲਪਰ ਲਈ ਇਹ ਸਭ ਤੋਂ ਯਥਾਰਥਵਾਦੀ ਸੈੱਟਅੱਪ ਹੈ। ਤੁਹਾਨੂੰ ਪ੍ਰਤੀ ਸੈਕਿੰਡ 3-9 tokens ਮਿਲਦੇ ਹਨ। • 4090 + 256 GB DDR5 ਵਾਲਾ ਡੈਸਕਟੌਪ: 2-bit quantization ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇਹ offload ਰਾਹੀਂ ਚੱਲਦਾ ਹੈ ਪਰ ਹੌਲੀ ਰਹਿੰਦਾ ਹੈ। • MacBook ਜਾਂ 64-128 GB ਮਸ਼ੀਨ: ਇਸਦੀ ਕੋਸ਼ਿਸ਼ ਨਾ ਕਰੋ। ਇਸਦੀ ਬਜਾਏ ਇੱਕ hosted API ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਇਸਨੂੰ ਲੋਕਲ ਤੌਰ 'ਤੇ ਕਿਉਂ ਚਲਾਉਣਾ ਹੈ?

  • Privacy: ਤੁਹਾਡਾ ਕੋਡ ਅਤੇ prompts ਕਦੇ ਵੀ ਤੁਹਾਡੀ ਮਸ਼ੀਨ ਤੋਂ ਬਾਹਰ ਨਹੀਂ ਜਾਂਦੇ।
  • Offline work: ਇਸਨੂੰ air-gapped ਵਾਤਾਵਰਣ ਵਿੱਚ ਵਰਤੋ।
  • Existing hardware: ਉਸ Mac Studio ਦੀ ਵਰਤੋਂ ਕਰੋ ਜੋ ਤੁਸੀਂ ਪਹਿਲਾਂ ਹੀ ਹੋਰ ਕੰਮਾਂ ਲਈ ਖਰੀਦਿਆ ਹੈ।
  • Learning: ਬਿਨਾਂ ਕਿਸੇ rate limits ਦੇ sampling settings ਅਤੇ local endpoints ਦਾ ਟੈਸਟ ਕਰੋ।

ਸਫਲਤਾ ਲਈ ਨਿਯਮ:

  1. ਮੈਮੋਰੀ ਬੁਨਿਆਦੀ ਲੋੜ ਹੈ। ਤੁਹਾਨੂੰ ਘੱਟੋ-ਘੱਟ 256 GB RAM ਦੀ ਲੋੜ ਹੈ। ਜੇਕਰ ਤੁਹਾਡੇ ਕੋਲ ਇਸ ਤੋਂ ਘੱਟ ਹੈ, ਤਾਂ ਇੱਥੇ ਹੀ ਰੁਕ ਜਾਓ ਅਤੇ ਕਿਸੇ hosted ਪਲਾਨ ਦੀ ਵਰਤੋਂ ਕਰੋ।
  2. ਸਹੀ repo ਦੀ ਵਰਤੋਂ ਕਰੋ। HuggingFace 'ਤੇ Unsloth ਤੋਂ GGUF quants ਡਾਊਨਲੋਡ ਕਰੋ। ਅਧਿਕਾਰਤ repo ਲੋਕਲ ਵਰਤੋਂ ਲਈ ਬਹੁਤ ਵੱਡੀ ਹੈ।
  3. ਆਪਣੇ context ਦਾ ਧਿਆਨ ਰੱਖੋ। ਲੋਕਲ ਸੈੱਟਅੱਪ ਪੂਰੇ 1M token window ਨਾਲ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ। ਅਸਲ ਵਿੱਚ 16K ਤੋਂ 64K ਦੀ ਉਮੀਦ ਰੱਖੋ।
  4. ਸਹੀ parameters ਸੈੱਟ ਕਰੋ। temperature 1.0, top-p 0.95, ਅਤੇ min-p 0.01 ਦੀ ਵਰਤੋਂ ਕਰੋ। ਗਲਤ ਸੈਟਿੰਗਾਂ ਮਾਡਲ ਨੂੰ "dumb" ਬਣਾ ਦਿੰਦੀਆਂ ਹਨ।

ਇੱਕ ਸਿੰਗਲ ਲੋਕਲ ਮਸ਼ੀਨ ਇੱਕ ਵਿਅਕਤੀ ਲਈ ਇੱਕ ਟੂਲ ਹੈ। ਜੇਕਰ ਦੋ ਡਿਵੈਲਪਰ ਇੱਕੋ ਸਮੇਂ ਇਸਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਤਾਂ ਇਹ ਬਹੁਤ ਹੌਲੀ ਚੱਲੇਗੀ। ਟੀਮਾਂ ਲਈ, ਤੁਹਾਨੂੰ datacenter GPUs ਜਾਂ ਕਿਸੇ hosted API ਦੀ ਲੋੜ ਹੈ।

Source: https://dev.to/owen_fox/run-glm-52-locally-2026-2-bit-on-a-256gb-mac-or-4090-box-1apn

Optional learning community: https://t.me/GyaanSetuAi