লোকাল AI: কীভাবে ওপেন সোর্স মডেলগুলো লোকালি চালানো যায়
আপনি আপনার টার্মিনালে একটি প্রশ্ন লিখলেন। এন্টার চাপলেন। একটি উত্তর ভেসে এল। আপনার ওয়াই-ফাই বন্ধ। কোনো API কী-র প্রয়োজন নেই। ব্যবহারের মিটারও চলছে না। মডেলটি আপনার নিজের হার্ডওয়্যারে চলছে।
লোকাল AI চালানো আগে কঠিন ছিল। এখন এটি সহজ। একটি মিড-রেঞ্জ ল্যাপটপ দিয়ে এমন সব মডেল চালানো সম্ভব যা কয়েক বছর আগেও অত্যন্ত উন্নত বা ফ্রন্টিয়ার-ক্লাস ছিল।
গোপনীয়তা, খরচ এবং অফলাইন ব্যবহারের জন্য লোকাল AI একটি সঠিক পছন্দ।
লোকাল AI-এর স্বর্ণালী নিয়ম:
মেমরিই হলো সবকিছু। আপনি GPU-তে VRAM ব্যবহার করুন বা Mac-এ ইউনিফাইড মেমরি ব্যবহার করুন, মডেলটি ভালোভাবে চালানোর জন্য অবশ্যই দ্রুতগতির মেমরির মধ্যে থাকতে হবে।
দ্রুত শুরু করার নির্দেশিকা:
- Ollama বা LM Studio ইনস্টল করুন।
- একটি 7B বা 8B মডেল ডাউনলোড করুন।
- Q4_K_M quantization ব্যবহার করুন।
- দশ মিনিটের মধ্যেই আপনি লোকাল AI চালাতে পারবেন।
আপনার জানা প্রয়োজনীয় কিছু মূল শব্দ:
• Parameters: মডেলের আকার। একটি 7B মডেলে ৭ বিলিয়ন প্যারামিটার থাকে। সাধারণত বেশি প্যারামিটার মানে বেশি বুদ্ধিমত্তা, তবে মেমরির ব্যবহারও বেশি হবে। • Quantization: এটি মডেলের আকার ছোট করে। এটি ফাইলের আকার অনেক কমিয়ে দেওয়ার বিনিময়ে সামান্য কিছু গুণমান কমিয়ে দেয়। Q4_K_M হলো সবচেয়ে ভারসাম্যপূর্ণ অপশন। • Tokens: মডেল কীভাবে টেক্সট পড়ে। এগুলোকে শব্দের অংশ হিসেবে ভাবুন। • Context Window: মডেলটি একসাথে কতটা টেক্সট মনে রাখতে পারে। • Inference: উত্তর পাওয়ার জন্য মডেলটি চালানোর প্রক্রিয়া।
কীভাবে আপনার টুলটি বেছে নেবেন:
- Ollama: ডেভেলপারদের জন্য সেরা। এটি একটি ব্যাকগ্রাউন্ড সার্ভিস হিসেবে চলে। আপনি যদি একটি সহজ API চান, তবে এটি ব্যবহার করুন।
- LM Studio: নতুনদের জন্য সেরা। এর ইন্টারফেস খুব পরিষ্কার। আপনি যদি একটি ভিজ্যুয়াল অভিজ্ঞতা চান, তবে এটি ব্যবহার করুন।
- llama.cpp: বিশেষজ্ঞদের জন্য সেরা। এটি প্রতিটি সেটিংয়ের ওপর পূর্ণ নিয়ন্ত্রণ প্রদান করে।
হার্ডওয়্যার কৌশল:
- Apple Silicon Macs: ইউনিফাইড মেমরির কারণে এগুলো দারুণ। একটি 64GB Mac দিয়ে খুব বড় মডেল চালানো সম্ভব।
- NVIDIA GPUs: ইন্ডাস্ট্রির মানদণ্ড। সেরা সফটওয়্যার সাপোর্ট এবং গতির জন্য এগুলো ব্যবহার করুন।
- Low-end Laptops: Phi-4-mini বা Llama 3.2 3B-এর মতো ছোট মডেল ব্যবহার করুন।
মেমরি গণনার সহজ উপায়:
Q4 quantization-এর ক্ষেত্রে, প্রতি বিলিয়ন প্যারামিটারের জন্য প্রায় 0.7GB মেমরি প্রয়োজন হয়। ওভারহেড এবং কনটেক্সটের জন্য সব সময় অতিরিক্ত 2GB মেমরি হাতে রাখুন।
সবকিছুর জন্য ক্লাউডের ওপর নির্ভর করা বন্ধ করুন। আপনার ডেটা এবং কম্পিউটিংয়ের নিয়ন্ত্রণ নিজের হাতে নিন।
Source: https://dev.to/harshdeepsingh13/local-ai-how-to-run-open-source-ai-models-locally-4pi2
Optional learning community: https://t.me/GyaanSetuAi
