GGUF: ਤੁਹਾਡੇ ਲੈਪਟਾਪ 'ਤੇ AI ਚਲਾਉਣ ਵਾਲਾ ਫਾਈਲ ਫਾਰਮੈਟ

ਤੁਹਾਨੂੰ ਇੱਕ ਵੱਡੇ ਲੈਂਗੂਏਜ ਮਾਡਲ (large language model) ਨੂੰ ਚਲਾਉਣ ਲਈ ਕਿਸੇ ਵਿਸ਼ਾਲ ਸਰਵਰ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਤੁਹਾਨੂੰ ਸਿਰਫ਼ ਸਹੀ ਫਾਈਲ ਫਾਰਮੈਟ ਦੀ ਲੋੜ ਹੈ।

ਜੇਕਰ ਤੁਸੀਂ Ollama ਜਾਂ LM Studio ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਪਹਿਲਾਂ ਹੀ GGUF ਦੀ ਵਰਤੋਂ ਕਰ ਰਹੇ ਹੋ। ਇਸ ਫਾਰਮੈਟ ਨੇ ਬੁੱਧੀ (intelligence) ਨੂੰ ਡਾਟਾ ਸੈਂਟਰਾਂ ਤੋਂ ਤੁਹਾਡੇ ਆਪਣੇ ਡਿਵਾਈਸ ਤੱਕ ਲਿਆ ਕੇ AI ਨੂੰ ਬਦਲ ਦਿੱਤਾ ਹੈ।

GGUF ਕੀ ਹੈ?

GGUF ਇੱਕ ਸਿੰਗਲ ਬਾਈਨਰੀ ਫਾਈਲ ਹੈ। ਇਹ ਮਾਡਲ ਵੇਟਸ (model weights), ਟੋਕਨਾਈਜ਼ਰ (tokenizer), ਅਤੇ ਆਰਕੀਟੈਕਚਰ ਮੈਟਾਡਾਟਾ ਨੂੰ ਇਕੱਠਾ ਕਰਕੇ ਰੱਖਦੀ ਹੈ। ਤੁਹਾਨੂੰ ਵਾਧੂ ਕੌਂਫਿਗ ਫੋਲਡਰਾਂ ਜਾਂ ਗੁੰਝਲਦਾਰ Python ਵਾਤਾਵਰਣਾਂ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਇਹ ਤੁਰੰਤ ਕੰਮ ਕਰਦੀ ਹੈ।

ਫਾਈਲ ਦੇ ਨਾਮ ਵਿੱਚ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ (quantization) ਦੀ ਚੋਣ ਇੱਕ ਫੈਸਲਾ ਹੈ। Q4_K_M ਵਰਗਾ ਨਾਮ ਤੁਹਾਨੂੰ ਦੱਸਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਸਪੀਡ ਅਤੇ ਸਾਈਜ਼ ਲਈ ਕਿੰਨੀ ਕੁਆਲਿਟੀ ਦਾ ਤਿਆਗ ਕਰ ਰਹੇ ਹੋ।

ਨਾਮ ਕਿਵੇਂ ਪੜ੍ਹਨੇ ਹਨ:

  • ਨੰਬਰ ਪ੍ਰਤੀ ਵੇਟ ਬਿੱਟਸ (bits per weight) ਹੈ। Q8 ਅੱਠ ਬਿੱਟਸ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। Q4 ਚਾਰ ਬਿੱਟਸ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
  • K-quants ਆਧੁਨਿਕ ਮਿਆਰ ਹਨ। ਉਹ ਕੁਆਲਿਟੀ ਨੂੰ ਉੱਚਾ ਰੱਖਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਲੇਅਰਾਂ 'ਤੇ ਵਧੇਰੇ ਬਿੱਟਸ ਖਰਚ ਕਰਦੇ ਹਨ।
  • ਸਫਿਕਸ (suffix) ਤੁਹਾਨੂੰ ਸਾਈਜ਼ ਦੱਸਦਾ ਹੈ। M ਦਾ ਮਤਲਬ ਮੀਡੀਅਮ (medium) ਹੈ। S ਦਾ ਮਤਲਬ ਸਮਾਲ (small) ਹੈ। L ਦਾ ਮਤਲਬ ਲਾਰਜ (large) ਹੈ।

ਤੁਹਾਡੇ ਹਾਰਡਵੇਅਰ ਲਈ ਇੱਕ ਤੇਜ਼ ਗਾਈਡ:

  • ਕੋਈ ਡੈਡੀਕੇਟਿਡ GPU ਜਾਂ 8GB VRAM ਨਹੀਂ: Q4_K_M ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇਹ ਸਾਈਜ਼ ਅਤੇ ਸਮਾਰਟਨੈੱਸ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਸੰਤੁਲਨ ਹੈ।
  • 12GB ਤੋਂ 16GB VRAM: ਉੱਚੀ ਕੁਆਲਿਟੀ ਲਈ Q5_K_M ਜਾਂ Q6_K ਦੀ ਵਰਤੋਂ ਕਰੋ।
  • 24GB+ VRAM ਜਾਂ ਸਟੀਕ ਕੰਮ ਲਈ: Q8_0 ਦੀ ਵਰਤੋਂ ਕਰੋ। ਮੈਥ (math) ਅਤੇ ਕੋਡ ਲਈ ਇਸ ਵਿੱਚ ਲਗਭਗ ਕੋਈ ਕੁਆਲਿਟੀ ਨੁਕਸਾਨ ਨਹੀਂ ਹੁੰਦਾ।

ਸਾਈਜ਼ ਕਿਉਂ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ?

ਟੈਕਸਟ ਜਨਰੇਸ਼ਨ ਮੈਮੋਰੀ ਬੈਂਡਵਿਡਥ (memory bandwidth) 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਇੱਕ ਛੋਟੀ ਫਾਈਲ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਕੰਪਿਊਟਰ ਹਰ ਸ਼ਬਦ ਲਿਖਣ ਲਈ ਘੱਟ ਬਾਈਟਸ ਪੜ੍ਹਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਦੀ ਕਿਸਮ ਨੂੰ ਤੇਜ਼ ਬਣਾਉਂਦਾ ਹੈ।

ਇੱਕ Q4 ਮਾਡਲ ਅਕਸਰ Q8 ਮਾਡਲ ਨਾਲੋਂ ਤੇਜ਼ੀ ਨਾਲ ਚੱਲਦਾ ਹੈ। ਇਹ ਤੇਜ਼ੀ ਨਾਲ ਸੋਚਦਾ ਨਹੀਂ ਹੈ। ਇਹ ਸਿਰਫ਼ ਘੱਟ ਪੜ੍ਹਦਾ ਹੈ।

ਸਮਝੌਤਾ (The trade-off):

  • ਚੈਟ ਅਤੇ ਲਿਖਣ ਲਈ: Q4_K_M ਵਧੀਆ ਹੈ। 1 ਤੋਂ 3 ਪ੍ਰਤੀਸ਼ਤ ਕੁਆਲਿਟੀ ਦਾ ਨੁਕਸਾਨ ਅਣਡਿੱਠਾ ਹੁੰਦਾ ਹੈ।
  • ਮੈਥ ਅਤੇ ਕੋਡਿੰਗ ਲਈ: Q8_0 ਦੀ ਵਰਤੋਂ ਕਰੋ। 4-ਬਿੱਟ ਮਾਡਲਾਂ ਵਿੱਚ ਛੋਟੀਆਂ ਗਲਤੀਆਂ ਗੁੰਝਲਦਾਰ ਲੌਜਿਕ ਨੂੰ ਖਰਾਬ ਕਰ ਸਕਦੀਆਂ ਹਨ।

ਆਪਣੀਆਂ ਸੈਟਿੰਗਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਬੰਦ ਕਰੋ। ਆਪਣੀ ਮੈਮੋਰੀ ਦੇਖੋ ਅਤੇ ਸਹੀ ਕੁਆਂਟ (quant) ਚੁਣੋ।

ਸਰੋਤ: https://dev.to/sayed_ali_alkamel/gguf-explained-the-file-format-that-put-llms-on-your-laptop-12lh

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi