Modal 'ਤੇ GLM-5.2 ਨੂੰ ਡਿਪਲੋਏ ਕਰਨਾ

GLM-5.2 ਇੱਕ ਬਹੁਤ ਵੱਡਾ open-weights ਮਾਡਲ ਹੈ। ਇਹ ਗੁੰਝਲਦਾਰ ਤਰਕ (reasoning) ਅਤੇ ਕੋਡਿੰਗ ਲਈ Mixture-of-Experts (MoE) ਆਰਕੀਟੈਕਚਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਇੰਜੀਨੀਅਰਿੰਗ ਕੰਮਾਂ ਵਿੱਚ Claude 3.5 Sonnet ਵਰਗੇ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਹੈ।

ਇਸ 700B ਪੈਰਾਮੀਟਰ ਵਾਲੇ ਮਾਡਲ ਨੂੰ ਸੈਲਫ-ਹੋਸਟ ਕਰਨ ਲਈ 8x NVIDIA H200 GPUs ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇੱਥੇ ਦੱਸਿਆ ਗਿਆ ਹੈ ਕਿ ਮੈਂ Modal 'ਤੇ ਇੱਕ serverless ਪਹੁੰਚ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਸਨੂੰ ਕਿਵੇਂ ਡਿਪਲੋਏ ਕੀਤਾ।

ਲਾਗਤ ਦਾ ਲਾਭ ਇੱਕ ਸਮਰਪਿਤ (dedicated) 8x H200 ਨੋਡ ਕਿਰਾਏ 'ਤੇ ਲੈਣਾ ਮਹਿੰਗਾ ਹੈ।

  • RunPod ਦੀ ਲਾਗਤ $35.12 ਪ੍ਰਤੀ ਘੰਟਾ ਹੈ।
  • Modal ਦੀ ਲਾਗਤ $36.31 ਪ੍ਰਤੀ ਘੰਟਾ ਹੈ।

ਹਾਲਾਂਕਿ, Modal ਸਕਿੰਟ ਦੇ ਹਿਸਾਬ ਨਾਲ ਬਿੱਲ ਬਣਾਉਂਦਾ ਹੈ। ਜਦੋਂ ਤੁਸੀਂ ਇਸਦੀ ਵਰਤੋਂ ਨਹੀਂ ਕਰ ਰਹੇ ਹੁੰਦੇ, ਤਾਂ ਇਹ scale to zero ਹੋ ਜਾਂਦਾ ਹੈ। 20 ਮਿੰਟ ਦੇ ਡਿਵੈਲਪਮੈਂਟ ਸੈਸ਼ਨ ਦੀ ਲਾਗਤ ਲਗਭਗ $12.00 ਹੈ। ਜਦੋਂ ਤੁਸੀਂ ਗੈਰ-ਸਰਗਰਮ (inactive) ਹੁੰਦੇ ਹੋ, ਤਾਂ ਲਾਗਤ $0.00 ਹੁੰਦੀ ਹੈ।

ਕਵਾਨਟਾਈਜ਼ੇਸ਼ਨ ਦੇ ਸਮਝੌਤੇ (Quantization Trade-offs) ਤੁਸੀਂ ਇੱਕ ਨੋਡ 'ਤੇ ਪੂਰਾ BF16 ਮਾਡਲ ਨਹੀਂ ਚਲਾ ਸਕਦੇ। ਇਸਨੂੰ 1.5 TB VRAM ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਮੈਂ ਸਭ ਤੋਂ ਵਧੀਆ ਸੰਤੁਲਨ ਲੱਭਣ ਲਈ ਵੱਖ-ਵੱਖ ਫਾਰਮੈਟਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ:

  • FP8: ਲਗਭਗ ~700 GB ਦੀ ਲੋੜ ਹੈ। ਇਹ 99.2% ਸ਼ੁੱਧਤਾ (accuracy) ਬਣਾਈ ਰੱਖਦਾ ਹੈ। ਇਹ ਸਭ ਤੋਂ ਵਧੀਆ ਚੋਣ ਹੈ। ਇਹ ਤੇਜ਼ ਰਫ਼ਤਾਰ ਲਈ Hopper native Tensor Cores ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
  • INT8: ਲਗਭਗ ~750 GB ਦੀ ਲੋੜ ਹੈ। ਇਹ ਹਾਰਡਵੇਅਰ ਆਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਦੀ ਘਾਟ ਕਾਰਨ ਹੌਲੀ ਹੈ।
  • INT4: ਲਗਭਗ ~400 GB ਦੀ ਲੋੜ ਹੈ। ਤਰਕ (reasoning) ਵਾਲੇ ਕੰਮਾਂ ਵਿੱਚ ਸ਼ੁੱਧਤਾ ਕਾਫ਼ੀ ਘਟ ਜਾਂਦੀ ਹੈ।

ਸੈਲਫ-ਹੋਸਟ ਕਿਉਂ ਕਰੀਏ?

  1. ਪ੍ਰਾਈਵੇਸੀ: ਆਪਣੇ ਸੰਵੇਦਨਸ਼ੀਲ ਕੋਡ ਨੂੰ ਆਪਣੇ ਖੁਦ ਦੇ ਸੁਰੱਖਿਅਤ ਨੈੱਟਵਰਕ ਦੇ ਅੰਦਰ ਰੱਖੋ।
  2. ਕੋਈ ਸੀਮਾ ਨਹੀਂ: ਪਬਲਿਕ APIs 'ਤੇ ਮਿਲਣ ਵਾਲੀਆਂ ਰੇਟ ਲਿਮਿਟਾਂ ਅਤੇ context throttling ਤੋਂ ਬਚੋ।
  3. ਸਥਿਰ ਕੈਸ਼ (Stable Cache): ਤੁਸੀਂ GPU ਮੈਮੋਰੀ ਨੂੰ ਕੰਟਰੋਲ ਕਰਦੇ ਹੋ। ਤੁਹਾਡਾ context cache ਵਾਰਮ ਅਤੇ ਸਥਿਰ ਰਹਿੰਦਾ ਹੈ।

ਤਕਨੀਕੀ ਸਬਕ

  • ਇੰਪੋਰਟ ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਨਾ: ਕ੍ਰੈਸ਼ਾਂ ਨੂੰ ਰੋਕਣ ਲਈ ਮੈਨੂੰ Dockerfile ਵਿੱਚ ਇੱਕ ਪੁਰਾਣੇ (legacy) typing_extensions ਮੋਡਿਊਲ ਨੂੰ ਡਿਲੀਟ ਕਰਨਾ ਪਿਆ।
  • ਲੋਡਿੰਗ ਦੀ ਰਫ਼ਤਾਰ ਵਧਾਉਣਾ: prefetch strategy ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ ਮਾਡਲ ਲੋਡ ਹੋਣ ਦਾ ਸਮਾਂ 12 ਮਿੰਟ ਤੋਂ ਘਟਾ ਕੇ 1 ਮਿੰਟ ਕਰ ਦਿੱਤਾ ਗਿਆ।
  • Eager Mode ਦੀ ਵਰਤੋਂ ਕਰੋ: ਗਣਿਤਕ ਗ੍ਰਾਫਾਂ (mathematical graphs) ਨੂੰ ਕੰਪਾਈਲ ਕਰਨ ਵਿੱਚ 20 ਮਿੰਟ ਲੱਗੇ। Eager mode 4.5 ਮਿੰਟ ਵਿੱਚ ਸ਼ੁਰੂ ਹੋ ਜਾਂਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਪਹਿਲੀ ਕੁਐਰੀ (query) 'ਤੇ ਥੋੜ੍ਹੀ ਦੇਰੀ ਦਿਖਾਈ ਦੇ ਸਕਦੀ ਹੈ, ਪਰ ਇਹ ਤੇਜ਼ ਸ਼ੁਰੂਆਤ ਲਈ ਬਹੁਤ ਫਾਇਦੇਮੰਦ ਹੈ।

ਨਤੀਜਾ ਮਾਡਲ ਵੱਡੀਆਂ ਫਾਈਲਾਂ ਨੂੰ ਆਸਾਨੀ ਨਾਲ ਸੰਭਾਲ ਲੈਂਦਾ ਹੈ। ਮੈਂ ਇਸਦਾ ਟੈਸਟ 1,000+ ਲਾਈਨਾਂ ਦੇ Python ਕੋਡ ਨਾਲ ਕੀਤਾ। ਇਸਨੇ ਲੌਜਿਕ ਨੂੰ ਪਾਰਸ ਕੀਤਾ ਅਤੇ ਸਹੀ ਆਰਕੀਟੈਕਚਰਲ ਵਿਸ਼ਲੇਸ਼ਣ ਪ੍ਰਦਾਨ ਕੀਤਾ। ਇਸਨੇ ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਕਸਟਮ ਆਡੀਓ ਦੇ ਨਾਲ ਇੱਕ ਕਾਰਜਸ਼ੀਲ ਗੇਮ ਵੀ ਬਣਾਈ।

ਹੁਣ ਵਿਅਕਤੀਗਤ ਡਿਵੈਲਪਰਾਂ ਲਈ ਫਰੰਟੀਅਰ AI ਨੂੰ ਸੈਲਫ-ਹੋਸਟ ਕਰਨਾ ਸੰਭਵ ਹੈ। ਤੁਹਾਨੂੰ ਘੱਟ ਲਾਗਤ 'ਤੇ ਪ੍ਰਾਈਵੇਸੀ ਅਤੇ ਸ਼ਕਤੀ ਮਿਲਦੀ ਹੈ।

ਸਰੋਤ: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi