લોકલ AI: ઓપન સોર્સ મોડલ્સ સ્થાનિક રીતે (Locally) કેવી રીતે ચલાવવા

તમે તમારા ટર્મિનલમાં એક પ્રશ્ન ટાઈપ કરો છો. તમે એન્ટર દબાવો છો. એક જવાબ વહેતો (stream) આવે છે. તમારું Wi-Fi બંધ છે. કોઈ API કીની જરૂર નથી. વપરાશનું મીટર (usage meter) પણ ચાલતું નથી. મોડલ તમારા પોતાના હાર્ડવેર પર ચાલે છે.

લોકલ AI ચલાવવું પહેલાં મુશ્કેલ હતું. હવે તે સરળ છે. એક મધ્યમ શ્રેણીનું (mid-range) લેપટોપ એવા મોડલ્સ ચલાવી શકે છે જે થોડા વર્ષો પહેલાં અત્યંત અદ્યતન (frontier-class) ગણાતા હતા.

પ્રાઇવસી, ખર્ચ અને ઓફલાઇન ઉપયોગ માટે લોકલ AI એ યોગ્ય પસંદગી છે.

લોકલ AI નો સુવર્ણ નિયમ: મેમરી એ જ સર્વસ્વ છે. તમે GPU પર VRAM નો ઉપયોગ કરો અથવા Mac પર યુનિફાઇડ મેમરીનો, તમારું મોડલ સારી રીતે ચલાવવા માટે ફાસ્ટ મેમરીમાં સમાઈ જવું જોઈએ.

ક્વિક સ્ટાર્ટ ગાઈડ:

  • Ollama અથવા LM Studio ઇન્સ્ટોલ કરો.
  • 7B અથવા 8B મોડલ ડાઉનલોડ કરો.
  • Q4_K_M quantization નો ઉપયોગ કરો.
  • તમે દસ મિનિટમાં લોકલ AI ચલાવી રહ્યા છો.

તમારે જાણવા જરૂરી મુખ્ય શબ્દો:

• Parameters: મોડલનું કદ. 7B મોડલમાં 7 અબજ પેરામીટર્સ હોય છે. વધુ પેરામીટર્સનો અર્થ સામાન્ય રીતે વધુ બુદ્ધિશાળી પણ વધુ મેમરી વપરાશ થાય છે. • Quantization: આ મોડલ્સનું કદ ઘટાડે છે. તે ખૂબ જ નાની ફાઇલ સાઇઝ માટે ગુણવત્તામાં થોડો ઘટાડો કરે છે. Q4_K_M એ શ્રેષ્ઠ સંતુલન (sweet spot) છે. • Tokens: મોડલ્સ ટેક્સ્ટ કેવી રીતે વાંચે છે તે. તેને શબ્દોના ટુકડા તરીકે સમજો. • Context Window: મોડલ એકસાથે કેટલું ટેક્સ્ટ યાદ રાખી શકે છે. • Inference: જવાબ મેળવવા માટે મોડલ ચલાવવાની પ્રક્રિયા.

તમારું સાધન (Tool) કેવી રીતે પસંદ કરવું:

  • Ollama: ડેવલપર્સ માટે શ્રેષ્ઠ. તે બેકગ્રાઉન્ડ સર્વિસ તરીકે ચાલે છે. જો તમારે સરળ API જોઈતું હોય તો તેનો ઉપયોગ કરો.
  • LM Studio: શિખાઉ લોકો માટે શ્રેષ્ઠ. તેમાં ક્લીન ઇન્ટરફેસ છે. જો તમારે વિઝ્યુઅલ અનુભવ જોઈતો હોય તો તેનો ઉપયોગ કરો.
  • llama.cpp: નિષ્ણાતો માટે શ્રેષ્ઠ. તે દરેક સેટિંગ પર સંપૂર્ણ નિયંત્રણ આપે છે.

હાર્ડવેર વ્યૂહરચના:

  • Apple Silicon Macs: યુનિફાઇડ મેમરીને કારણે આ ઉત્તમ છે. 64GB વાળું Mac ખૂબ જ મોટા મોડલ્સ ચલાવી શકે છે.
  • NVIDIA GPUs: ઉદ્યોગનું પ્રમાણભૂત (industry standard). શ્રેષ્ઠ સોફ્ટવેર સપોર્ટ અને ઝડપ માટે આનો ઉપયોગ કરો.
  • Low-end Laptops: Phi-4-mini અથવા Llama 3.2 3B જેવા નાના મોડલ્સનો ઉપયોગ કરો.

મેમરી મેથ શોર્ટકટ: Q4 quantization પર, દરેક એક અબજ પેરામીટર્સ માટે લગભગ 0.7GB મેમરી વપરાય છે. હંમેશા ઓવરહેડ અને કોન્ટેક્સ્ટ માટે વધારાની 2GB મેમરીનું બજેટ રાખો.

દરેક વસ્તુ માટે ક્લાઉડ પર નિર્ભર રહેવાનું બંધ કરો. તમારા ડેટા અને તમારા કમ્પ્યુટિંગ પર નિયંત્રણ મેળવો.

Source: https://dev.to/harshdeepsingh13/local-ai-how-to-run-open-source-ai-models-locally-4pi2

Optional learning community: https://t.me/GyaanSetuAi