ਲੋਕਲ AI: ਓਪਨ ਸੋਰਸ ਮਾਡਲਾਂ ਨੂੰ ਲੋਕਲ ਤਰੀਕੇ ਨਾਲ ਕਿਵੇਂ ਚਲਾਉਣਾ ਹੈ

ਤੁਸੀਂ ਆਪਣੇ ਟਰਮੀਨਲ ਵਿੱਚ ਇੱਕ ਸਵਾਲ ਟਾਈਪ ਕਰਦੇ ਹੋ। ਤੁਸੀਂ ਐਂਟਰ ਦਬਾਉਂਦੇ ਹੋ। ਇੱਕ ਜਵਾਬ ਵਾਪਸ ਆਉਂਦਾ ਹੈ। ਤੁਹਾਡਾ Wi-Fi ਬੰਦ ਹੈ। ਕਿਸੇ API ਕੀ (key) ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਕੋਈ ਵਰਤੋਂ ਮੀਟਰ (usage meter) ਨਹੀਂ ਚੱਲ ਰਿਹਾ। ਮਾਡਲ ਉਸ ਹਾਰਡਵੇਅਰ 'ਤੇ ਚੱਲਦਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਹੀ ਤੁਹਾਡੇ ਕੋਲ ਹੈ।

ਲੋਕਲ AI ਚਲਾਉਣਾ ਪਹਿਲਾਂ ਮੁਸ਼ਕਲ ਹੁੰਦਾ ਸੀ। ਹੁਣ ਇਹ ਆਸਾਨ ਹੈ। ਇੱਕ ਮੱਧ-ਦਰਜੇ (mid-range) ਦਾ ਲੈਪਟਾਪ ਉਹਨਾਂ ਮਾਡਲਾਂ ਨੂੰ ਚਲਾ ਸਕਦਾ ਹੈ ਜੋ ਕੁਝ ਸਾਲ ਪਹਿਲਾਂ ਬਹੁਤ ਉੱਨਤ (frontier-class) ਮੰਨੇ ਜਾਂਦੇ ਸਨ।

ਪ੍ਰਾਈਵੇਸੀ, ਲਾਗਤ ਅਤੇ ਆਫਲਾਈਨ ਵਰਤੋਂ ਲਈ ਲੋਕਲ AI ਸਹੀ ਚੋਣ ਹੈ।

ਲੋਕਲ AI ਦਾ ਸੁਨਹਿਰੀ ਨਿਯਮ: ਮੈਮੋਰੀ ਹੀ ਸਭ ਕੁਝ ਹੈ। ਚਾਹੇ ਤੁਸੀਂ GPU 'ਤੇ VRAM ਦੀ ਵਰਤੋਂ ਕਰੋ ਜਾਂ Mac 'ਤੇ unified memory ਦੀ, ਤੁਹਾਡੇ ਮਾਡਲ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਚੱਲਣ ਲਈ ਤੇਜ਼ ਮੈਮੋਰੀ ਵਿੱਚ ਸਮਾਉਣਾ ਚਾਹੀਦਾ ਹੈ।

ਕੁਇੱਕ ਸਟਾਰਟ ਗਾਈਡ:

  • Ollama ਜਾਂ LM Studio ਇੰਸਟਾਲ ਕਰੋ।
  • ਇੱਕ 7B ਜਾਂ 8B ਮਾਡਲ ਡਾਊਨਲੋਡ ਕਰੋ।
  • Q4_K_M quantization ਦੀ ਵਰਤੋਂ ਕਰੋ।
  • ਤੁਸੀਂ ਦਸ ਮਿੰਟਾਂ ਵਿੱਚ ਲੋਕਲ AI ਚਲਾ ਰਹੇ ਹੋਵੋਗੇ।

ਮੁੱਖ ਸ਼ਬਦ ਜੋ ਤੁਹਾਨੂੰ ਜਾਣਨ ਦੀ ਲੋੜ ਹੈ:

• Parameters: ਮਾਡਲ ਦਾ ਆਕਾਰ। ਇੱਕ 7B ਮਾਡਲ ਵਿੱਚ 7 ਅਰਬ parameters ਹੁੰਦੇ ਹਨ। ਜ਼ਿਆਦਾ parameters ਦਾ ਮਤਲਬ ਆਮ ਤੌਰ 'ਤੇ ਜ਼ਿਆਦਾ ਸਮਝਦਾਰੀ ਪਰ ਮੈਮੋਰੀ ਦੀ ਜ਼ਿਆਦਾ ਵਰਤੋਂ ਹੁੰਦੀ ਹੈ। • Quantization: ਇਹ ਮਾਡਲਾਂ ਦੇ ਆਕਾਰ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ। ਇਹ ਫਾਈਲ ਦੇ ਆਕਾਰ ਨੂੰ ਬਹੁਤ ਛੋਟਾ ਕਰਨ ਲਈ ਕੁਝ ਕੁਆਲਿਟੀ ਨਾਲ ਸਮਝੌਤਾ ਕਰਦਾ ਹੈ। Q4_K_M ਸਭ ਤੋਂ ਵਧੀਆ ਵਿਕਲਪ ਹੈ। • Tokens: ਮਾਡਲ ਟੈਕਸਟ ਨੂੰ ਕਿਵੇਂ ਪੜ੍ਹਦੇ ਹਨ। ਇਹਨਾਂ ਨੂੰ ਸ਼ਬਦਾਂ ਦੇ ਟੁਕੜਿਆਂ ਵਜੋਂ ਸਮਝੋ। • Context Window: ਮਾਡਲ ਇੱਕ ਸਮੇਂ ਵਿੱਚ ਕਿੰਨਾ ਟੈਕਸਟ ਯਾਦ ਰੱਖ ਸਕਦਾ ਹੈ। • Inference: ਜਵਾਬ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਮਾਡਲ ਨੂੰ ਚਲਾਉਣ ਦੀ ਪ੍ਰਕਿਰਿਆ।

ਆਪਣਾ ਟੂਲ ਕਿਵੇਂ ਚੁਣਨਾ ਹੈ:

  • Ollama: ਡਿਵੈਲਪਰਾਂ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ। ਇਹ ਇੱਕ ਬੈਕਗ੍ਰਾਊਂਡ ਸਰਵਿਸ ਵਜੋਂ ਚੱਲਦਾ ਹੈ। ਜੇਕਰ ਤੁਹਾਨੂੰ ਇੱਕ ਆਸਾਨ API ਚਾਹੀਦੀ ਹੈ ਤਾਂ ਇਸਦੀ ਵਰਤੋਂ ਕਰੋ।
  • LM Studio: ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ। ਇਸਦਾ ਇੰਟਰਫੇਸ ਸਾਫ਼-ਸੁਥਰਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਵਿਜ਼ੂਅਲ ਅਨੁਭਵ ਚਾਹੁੰਦੇ ਹੋ ਤਾਂ ਇਸਦੀ ਵਰਤੋਂ ਕਰੋ।
  • llama.cpp: ਮਾਹਰਾਂ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ। ਇਹ ਹਰ ਸੈਟਿੰਗ 'ਤੇ ਪੂਰਾ ਕੰਟਰੋਲ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਹਾਰਡਵੇਅਰ ਰਣਨੀਤੀ:

  • Apple Silicon Macs: ਇਹ unified memory ਦੇ ਕਾਰਨ ਬਹੁਤ ਵਧੀਆ ਹਨ। ਇੱਕ 64GB ਦਾ Mac ਬਹੁਤ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਚਲਾ ਸਕਦਾ ਹੈ।
  • NVIDIA GPUs: ਉਦਯੋਗ ਦਾ ਮਿਆਰ (industry standard)। ਸਭ ਤੋਂ ਵਧੀਆ ਸਾਫਟਵੇਅਰ ਸਪੋਰਟ ਅਤੇ ਰਫਤਾਰ ਲਈ ਇਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ।
  • Low-end Laptops: Phi-4-mini ਜਾਂ Llama 3.2 3B ਵਰਗੇ ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਮੈਮੋਰੀ ਗਣਿਤ ਸ਼ਾਰਟਕੱਟ: Q4 quantization 'ਤੇ, ਹਰ ਇੱਕ ਅਰਬ parameters ਲਈ ਲਗਭਗ 0.7GB ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਹਮੇਸ਼ਾ overhead ਅਤੇ context ਲਈ ਵਾਧੂ 2GB ਦਾ ਬਜਟ ਰੱਖੋ।

ਹਰ ਚੀਜ਼ ਲਈ ਕਲਾਉਡ 'ਤੇ ਨਿਰਭਰ ਕਰਨਾ ਬੰਦ ਕਰੋ। ਆਪਣੇ ਡੇਟਾ ਅਤੇ ਕੰਪਿਊਟ (compute) 'ਤੇ ਕੰਟਰੋਲ ਲਓ।

Source: https://dev.to/harshdeepsingh13/local-ai-how-to-run-open-source-ai-models-locally-4pi2

Optional learning community: https://t.me/GyaanSetuAi