ಲೋಕಲ್ AI: ಓಪನ್ ಸೋರ್ಸ್ ಮಾಡೆಲ್‌ಗಳನ್ನು ಸ್ಥಳೀಯವಾಗಿ ರನ್ ಮಾಡುವುದು ಹೇಗೆ

ನೀವು ನಿಮ್ಮ ಟರ್ಮಿನಲ್‌ನಲ್ಲಿ ಒಂದು ಪ್ರಶ್ನೆಯನ್ನು ಟೈಪ್ ಮಾಡುತ್ತೀರಿ. ಎಂಟರ್ ಒತ್ತುತ್ತೀರಿ. ಉತ್ತರವು ಹರಿಯತೊಡಗುತ್ತದೆ. ನಿಮ್ಮ ವೈ-ಫೈ ಆಫ್ ಆಗಿದೆ. ಯಾವುದೇ API ಕೀಗಳು ಬೇಕಾಗಿಲ್ಲ. ಬಳಕೆಯ ಮೀಟರ್ ಕೂಡ ಚಲಿಸುತ್ತಿಲ್ಲ. ನಿಮ್ಮ ಬಳಿ ಈಗಾಗಲೇ ಇರುವ ಹಾರ್ಡ್‌ವೇರ್‌ನಲ್ಲಿ ಮಾಡೆಲ್ ರನ್ ಆಗುತ್ತದೆ.

ಲೋಕಲ್ AI ಅನ್ನು ರನ್ ಮಾಡುವುದು ಹಿಂದೆ ಕಷ್ಟವಾಗಿತ್ತು. ಈಗ ಅದು ಸುಲಭವಾಗಿದೆ. ಕೆಲವು ವರ್ಷಗಳ ಹಿಂದೆ ಅತ್ಯಾಧುನಿಕವಾಗಿದ್ದ (frontier-class) ಮಾಡೆಲ್‌ಗಳನ್ನು ಈಗ ಮಧ್ಯಮ ಶ್ರೇಣಿಯ (mid-range) ಲ್ಯಾಪ್‌ಟಾಪ್‌ನಲ್ಲಿ ರನ್ ಮಾಡಬಹುದು.

ಗೌಪ್ಯತೆ, ವೆಚ್ಚ ಮತ್ತು ಆಫ್‌ಲೈನ್ ಬಳಕೆಗೆ ಲೋಕಲ್ AI ಸರಿಯಾದ ಆಯ್ಕೆಯಾಗಿದೆ.

ಲೋಕಲ್ AI ನ ಸುವರ್ಣ ನಿಯಮ: ಮೆಮೊರಿ ಎಲ್ಲವೂ. ನೀವು GPU ನಲ್ಲಿ VRAM ಬಳಸಲಿ ಅಥವಾ Mac ನಲ್ಲಿ unified memory ಬಳಸಲಿ, ನಿಮ್ಮ ಮಾಡೆಲ್ ಸರಿಯಾಗಿ ಕೆಲಸ ಮಾಡಲು ವೇಗದ ಮೆಮೊರಿಯಲ್ಲಿ ಹೊಂದಿಕೆಯಾಗಬೇಕು.

ಕ್ವಿಕ್ ಸ್ಟಾರ್ಟ್ ಗೈಡ್:

  • Ollama ಅಥವಾ LM Studio ಅನ್ನು ಇನ್‌ಸ್ಟಾಲ್ ಮಾಡಿ.
  • 7B ಅಥವಾ 8B ಮಾಡೆಲ್ ಅನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡಿ.
  • Q4_K_M quantization ಬಳಸಿ.
  • ಹತ್ತು ನಿಮಿಷಗಳಲ್ಲಿ ನೀವು ಲೋಕಲ್ AI ಅನ್ನು ರನ್ ಮಾಡುತ್ತೀರಿ.

ನೀವು ತಿಳಿಯಲೇಬೇಕಾದ ಪ್ರಮುಖ ಪದಗಳು:

• Parameters: ಮಾಡೆಲ್‌ನ ಗಾತ್ರ. 7B ಮಾಡೆಲ್ ಎಂದರೆ 7 ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳು ಎಂದರ್ಥ. ಹೆಚ್ಚು ಪ್ಯಾರಾಮೀಟರ್‌ಗಳು ಎಂದರೆ ಸಾಮಾನ್ಯವಾಗಿ ಹೆಚ್ಚು ಬುದ್ಧಿವಂತಿಕೆ, ಆದರೆ ಹೆಚ್ಚು ಮೆಮೊರಿ ಬಳಕೆ ಎಂದರ್ಥ. • Quantization: ಇದು ಮಾಡೆಲ್‌ಗಳ ಗಾತ್ರವನ್ನು ಕುಗ್ಗಿಸುತ್ತದೆ. ಇದು ಸ್ವಲ್ಪ ಮಟ್ಟದ ಗುಣಮಟ್ಟವನ್ನು ಕಡಿಮೆ ಮಾಡುವ ಮೂಲಕ ಫೈಲ್ ಗಾತ್ರವನ್ನು ಬಹಳವಾಗಿ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ. Q4_K_M ಅತ್ಯುತ್ತಮ ಆಯ್ಕೆಯಾಗಿದೆ. • Tokens: ಮಾಡೆಲ್‌ಗಳು ಪಠ್ಯವನ್ನು ಓದುವ ವಿಧಾನ. ಇವುಗಳನ್ನು ಪದಗಳ ತುಣುಕುಗಳೆಂದು ಭಾವಿಸಿ. • Context Window: ಮಾಡೆಲ್ ಏಕಕಾಲದಲ್ಲಿ ಎಷ್ಟು ಪಠ್ಯವನ್ನು ನೆನಪಿಟ್ಟುಕೊಳ್ಳುತ್ತದೆ ಎಂಬುದು. • Inference: ಉತ್ತರವನ್ನು ಪಡೆಯಲು ಮಾಡೆಲ್ ಅನ್ನು ರನ್ ಮಾಡುವ ಪ್ರಕ್ರಿಯೆ.

ನಿಮ್ಮ ಸಾಧನವನ್ನು (Tool) ಆರಿಸಿಕೊಳ್ಳುವುದು ಹೇಗೆ:

  • Ollama: ಡೆವಲಪರ್‌ಗಳಿಗೆ ಅತ್ಯುತ್ತಮವಾಗಿದೆ. ಇದು ಬ್ಯಾಕ್‌ಗ್ರೌಂಡ್ ಸರ್ವಿಸ್ ಆಗಿ ರನ್ ಆಗುತ್ತದೆ. ನಿಮಗೆ ಸುಲಭವಾದ API ಬೇಕಿದ್ದರೆ ಇದನ್ನು ಬಳಸಿ.
  • LM Studio: ಆರಂಭಿಕರಿಗೆ ಅತ್ಯುತ್ತಮವಾಗಿದೆ. ಇದು ಸುಂದರವಾದ ಇಂಟರ್ಫೇಸ್ ಹೊಂದಿದೆ. ನಿಮಗೆ ದೃಶ್ಯ ಅನುಭವ (visual experience) ಬೇಕಿದ್ದರೆ ಇದನ್ನು ಬಳಸಿ.
  • llama.cpp: ತಜ್ಞರಿಗೆ ಅತ್ಯುತ್ತಮವಾಗಿದೆ. ಇದು ಪ್ರತಿಯೊಂದು ಸೆಟ್ಟಿಂಗ್ ಮೇಲೆ ಸಂಪೂರ್ಣ ನಿಯಂತ್ರಣವನ್ನು ನೀಡುತ್ತದೆ.

ಹಾರ್ಡ್‌ವೇರ್ ತಂತ್ರ:

  • Apple Silicon Macs: ಇವು unified memory ಕಾರಣದಿಂದಾಗಿ ಅತ್ಯುತ್ತಮವಾಗಿವೆ. 64GB Mac ಬಹಳ ದೊಡ್ಡ ಮಾಡೆಲ್‌ಗಳನ್ನು ರನ್ ಮಾಡಬಲ್ಲದು.
  • NVIDIA GPUs: ಇವು ಉದ್ಯಮದ ಮಾನದಂಡ (industry standard). ಉತ್ತಮ ಸಾಫ್ಟ್‌ವೇರ್ ಬೆಂಬಲ ಮತ್ತು ವೇಗಕ್ಕಾಗಿ ಇವುಗಳನ್ನು ಬಳಸಿ.
  • Low-end Laptops: Phi-4-mini ಅಥವಾ Llama 3.2 3B ನಂತಹ ಸಣ್ಣ ಮಾಡೆಲ್‌ಗಳನ್ನು ಬಳಸಿ.

ಮೆಮೊರಿ ಮ್ಯಾಥ್ ಶಾರ್ಟ್‌ಕಟ್: Q4 quantization ನಲ್ಲಿ, ಪ್ರತಿ ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳು ಸುಮಾರು 0.7GB ಮೆಮೊರಿಯನ್ನು ಬಳಸುತ್ತವೆ. ಓವರ್‌ಹೆಡ್ (overhead) ಮತ್ತು ಕಾಂಟೆಕ್ಸ್ಟ್‌ಗಾಗಿ ಯಾವಾಗಲೂ ಹೆಚ್ಚುವರಿ 2GB ಮೀಸಲಿಡಿ.

ಎಲ್ಲದಕ್ಕೂ ಕ್ಲೌಡ್ ಮೇಲೆ ಅವಲಂಬಿತರಾಗುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ನಿಮ್ಮ ಡೇಟಾ ಮತ್ತು ಕಂಪ್ಯೂಟ್ ಮೇಲೆ ನಿಯಂತ್ರಣ ಸಾಧಿಸಿ.

ಮೂಲ (Source): https://dev.to/harshdeepsingh13/local-ai-how-to-run-open-source-ai-models-locally-4pi2

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ (Optional learning community): https://t.me/GyaanSetuAi