هوش مصنوعی محلی: چگونه مدل‌های متن‌باز را به صورت محلی اجرا کنیم

سوالی را در ترمینال خود تایپ می‌کنید. اینتر را می‌زنید. پاسخ به صورت جریانی (stream) بازمی‌گردد. وای-فای شما خاموش است. نیازی به کلیدهای API نیست. شمارنده میزان مصرف هم در حال حرکت نیست. مدل روی سخت‌افزاری که از قبل در اختیار دارید اجرا می‌شود.

اجرای هوش مصنوعی محلی قبلاً سخت بود. اما اکنون آسان شده است. یک لپ‌تاپ میان‌رده می‌تواند مدل‌هایی را اجرا کند که تا چند سال پیش در سطح پیشرو (frontier-class) بودند.

هوش مصنوعی محلی انتخابی درست برای حفظ حریم خصوصی، کاهش هزینه و استفاده آفلاین است.

قانون طلایی هوش مصنوعی محلی: حافظه همه چیز است. چه از VRAM در یک GPU استفاده کنید و چه از حافظه یکپارچه (unified memory) در یک مک، مدل شما باید در حافظه سریع جا شود تا به خوبی اجرا گردد.

راهنمای شروع سریع:

  • نصب Ollama یا LM Studio.
  • دانلود یک مدل 7B یا 8B.
  • استفاده از کوانتیزاسیون Q4_K_M.
  • شما در عرض ده دقیقه هوش مصنوعی محلی را اجرا می‌کنید.

اصطلاحات کلیدی که باید بدانید:

• پارامترها (Parameters): اندازه مدل. یک مدل 7B دارای ۷ میلیارد پارامتر است. پارامترهای بیشتر معمولاً به معنای هوش بیشتر اما مصرف حافظه بالاتر است. • کوانتیزاسیون (Quantization): این کار مدل‌ها را کوچک می‌کند. در واقع مقدار بسیار کمی از کیفیت را فدای کاهش چشمگیر حجم فایل می‌کند. Q4_K_M بهترین نقطه تعادل است. • توکن‌ها (Tokens): نحوه خواندن متن توسط مدل‌ها. آن‌ها را به عنوان قطعاتی از کلمات در نظر بگیرید. • پنجره بافت (Context Window): مقدار متنی که مدل در هر لحظه به خاطر می‌سپارد. • استنتاج (Inference): عمل اجرای مدل برای دریافت پاسخ.

چگونه ابزار خود را انتخاب کنید:

  • Ollama: بهترین گزینه برای توسعه‌دهندگان. این ابزار به عنوان یک سرویس پس‌زمینه اجرا می‌شود. اگر به دنبال یک API آسان هستید، از آن استفاده کنید.
  • LM Studio: بهترین گزینه برای مبتدیان. رابط کاربری تمیزی دارد. اگر تجربه بصری را می‌پسندید، از آن استفاده کنید.
  • llama.cpp: بهترین گزینه برای متخصصان. کنترل کامل بر روی تمام تنظیمات را فراهم می‌کند.

استراتژی سخت‌افزاری:

  • مک‌های دارای Apple Silicon: این دستگاه‌ها به دلیل حافظه یکپارچه عالی هستند. یک مک با ۶۴ گیگابایت رم می‌تواند مدل‌های بسیار بزرگی را اجرا کند.
  • پردازنده‌های گرافیکی NVIDIA: استاندارد صنعت. برای بهترین پشتیبانی نرم‌افزاری و سرعت، از این‌ها استفاده کنید.
  • لپ‌تاپ‌های ضعیف: از مدل‌های کوچک مانند Phi-4-mini یا Llama 3.2 3B استفاده کنید.

میان‌بر محاسبات حافظه: در کوانتیزاسیون Q4، هر میلیارد پارامتر حدود ۰.۷ گیگابایت حافظه اشغال می‌کند. همیشه ۲ گیگابایت اضافی برای سربار (overhead) و بافت (context) در نظر بگیرید.

از تکیه کردن به ابر (cloud) برای همه چیز دست بردارید. کنترل داده‌ها و محاسبات خود را به دست بگیرید.

Source: https://dev.to/harshdeepsingh13/local-ai-how-to-run-open-source-ai-models-locally-4pi2

Optional learning community: https://t.me/GyaanSetuAi