ലോക്കൽ AI: ഓപ്പൺ സോഴ്സ് മോഡലുകൾ എങ്ങനെ ലോക്കലായി പ്രവർത്തിപ്പിക്കാം

നിങ്ങൾ ടെർമിനലിൽ ഒരു ചോദ്യം ടൈപ്പ് ചെയ്യുന്നു. എൻ്റർ അമർത്തുന്നു. ഒരു ഉത്തരം മറുപടിയായി ലഭിക്കുന്നു. നിങ്ങളുടെ വൈഫൈ ഓഫ് ആണ്. API കീകൾ ആവശ്യമില്ല. ഉപയോഗം കണക്കാക്കുന്ന മീറ്ററുകൾ പ്രവർത്തിക്കുന്നില്ല. നിങ്ങളുടെ കൈവശമുള്ള ഹാർഡ്‌വെയറിൽ തന്നെ മോഡൽ പ്രവർത്തിക്കുന്നു.

ലോക്കൽ AI പ്രവർത്തിപ്പിക്കുന്നത് പണ്ട് പ്രയാസകരമായിരുന്നു. എന്നാൽ ഇപ്പോൾ അത് എളുപ്പമാണ്. ഏതാനും വർഷങ്ങൾക്ക് മുമ്പ് അത്യാധുനികമായിരുന്ന മോഡലുകൾ ഇന്ന് ഒരു മിഡ്-റേഞ്ച് ലാപ്ടോപ്പിൽ പോലും പ്രവർത്തിപ്പിക്കാൻ സാധിക്കും.

സ്വകാര്യത, ചിലവ് കുറവ്, ഓഫ്‌ലൈൻ ഉപയോഗം എന്നിവയ്ക്ക് ലോക്കൽ AI ആണ് ഏറ്റവും അനുയോജ്യമായ മാർഗ്ഗം.

ലോക്കൽ AI-യുടെ സുവർണ്ണ നിയമം: മെമ്മറി ആണ് എല്ലാം. നിങ്ങൾ ഒരു GPU-വിലെ VRAM ഉപയോഗിച്ചാലും അല്ലെങ്കിൽ ഒരു Mac-ലെ യൂണിഫൈഡ് മെമ്മറി ഉപയോഗിച്ചാലും, മോഡൽ നന്നായി പ്രവർത്തിക്കാൻ അത് വേഗതയേറിയ മെമ്മറിയിൽ ഒതുങ്ങേണ്ടതുണ്ട്.

ക്വിക്ക് സ്റ്റാർട്ട് ഗൈഡ്:

  • Ollama അല്ലെങ്കിൽ LM Studio ഇൻസ്റ്റാൾ ചെയ്യുക.
  • ഒരു 7B അല്ലെങ്കിൽ 8B മോഡൽ ഡൗൺലോഡ് ചെയ്യുക.
  • Q4_K_M quantization ഉപയോഗിക്കുക.
  • പത്ത് മിനിറ്റിനുള്ളിൽ നിങ്ങൾക്ക് ലോക്കൽ AI പ്രവർത്തിപ്പിക്കാൻ സാധിക്കും.

നിങ്ങൾ അറിഞ്ഞിരിക്കേണ്ട പ്രധാന പദങ്ങൾ:

• Parameters: മോഡലിന്റെ വലിപ്പം. ഒരു 7B മോഡലിന് 7 ബില്യൺ പാരാമീറ്ററുകൾ ഉണ്ടാകും. കൂടുതൽ പാരാമീറ്ററുകൾ എന്നാൽ കൂടുതൽ ബുദ്ധിശക്തി എന്നാണ് അർത്ഥം, എന്നാൽ അതിന് കൂടുതൽ മെമ്മറിയും ആവശ്യമാണ്. • Quantization: ഇത് മോഡലുകളുടെ വലിപ്പം കുറയ്ക്കുന്നു. കുറഞ്ഞ ഫയൽ സൈസിനായി ഗുണമേന്മയിൽ നേരിയ കുറവ് വരുത്തുന്ന രീതിയാണിത്. Q4_K_M ആണ് ഇതിന് ഏറ്റവും അനുയോജ്യമായ രീതി. • Tokens: മോഡലുകൾ ടെക്സ്റ്റ് വായിക്കുന്ന രീതി. വാക്കുകളുടെ ചെറിയ ഭാഗങ്ങളായി ഇവയെ കരുതാം. • Context Window: മോഡലിന് ഒരേസമയം എത്രത്തോളം ടെക്സ്റ്റ് ഓർമ്മിച്ചുവെക്കാൻ കഴിയും എന്നത്. • Inference: ഒരു ഉത്തരം ലഭിക്കുന്നതിനായി മോഡൽ പ്രവർത്തിപ്പിക്കുന്ന പ്രക്രിയ.

നിങ്ങളുടെ ടൂൾ എങ്ങനെ തിരഞ്ഞെടുക്കാം:

  • Ollama: ഡെവലപ്പർമാർക്ക് ഏറ്റവും അനുയോജ്യം. ഇത് ഒരു ബാക്ക്ഗ്രൗണ്ട് സർവീസായി പ്രവർത്തിക്കുന്നു. എളുപ്പത്തിൽ ഒരു API വേണമെന്നുണ്ടെങ്കിൽ ഇത് ഉപയോഗിക്കാം.
  • LM Studio: തുടക്കക്കാർക്ക് ഏറ്റവും അനുയോജ്യം. ഇതിന് ലളിതമായ ഒരു ഇന്റർഫേസ് ഉണ്ട്. വിഷ്വൽ അനുഭവം വേണമെന്നുണ്ടെങ്കിൽ ഇത് ഉപയോഗിക്കാം.
  • llama.cpp: വിദഗ്ധർക്ക് ഏറ്റവും അനുയോജ്യം. എല്ലാ സെറ്റിംഗുകളും പൂർണ്ണമായി നിയന്ത്രിക്കാൻ ഇത് സഹായിക്കുന്നു.

ഹാർഡ്‌വെയർ സ്ട്രാറ്റജി:

  • Apple Silicon Macs: യൂണിഫൈഡ് മെമ്മറി ഉള്ളതിനാൽ ഇവ മികച്ചതാണ്. ഒരു 64GB Mac ഉപയോഗിച്ച് വളരെ വലിയ മോഡലുകൾ പ്രവർത്തിപ്പിക്കാൻ സാധിക്കും.
  • NVIDIA GPUs: ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ്. മികച്ച സോഫ്റ്റ്‌വെയർ സപ്പോർട്ടിനും വേഗതയ്ക്കുമായി ഇവ ഉപയോഗിക്കുക.
  • Low-end Laptops: Phi-4-mini അല്ലെങ്കിൽ Llama 3.2 3B പോലുള്ള ചെറിയ മോഡലുകൾ ഉപയോഗിക്കുക.

മെമ്മറി കണക്കുകൂട്ടലുകൾ എളുപ്പമാക്കാൻ: Q4 quantization ഉപയോഗിക്കുമ്പോൾ, ഓരോ ബില്യൺ പാരാമീറ്ററിനും ഏകദേശം 0.7GB മെമ്മറി ആവശ്യമാണ്. ഓവർഹെഡ്ഡും കോൺടെക്സ്റ്റും കണക്കിലെടുത്ത് എപ്പോഴും 2GB അധികം കരുതുക.

എല്ലാ കാര്യങ്ങൾക്കും ക്ലൗഡിനെ മാത്രം ആശ്രയിക്കുന്നത് നിർത്തുക. നിങ്ങളുടെ ഡാറ്റയുടെയും കമ്പ്യൂട്ടിംഗിന്റെയും നിയന്ത്രണം ഏറ്റെടുക്കുക.

Source: https://dev.to/harshdeepsingh13/local-ai-how-to-run-open-source-ai-models-locally-4pi2

Optional learning community: https://t.me/GyaanSetuAi