هوش مصنوعی محلی: چگونه مدلهای متنباز را به صورت محلی اجرا کنیم
سوالی را در ترمینال خود تایپ میکنید. اینتر را میزنید. پاسخ به صورت جریانی (stream) بازمیگردد. وای-فای شما خاموش است. نیازی به کلیدهای API نیست. شمارنده میزان مصرف هم در حال حرکت نیست. مدل روی سختافزاری که از قبل در اختیار دارید اجرا میشود.
اجرای هوش مصنوعی محلی قبلاً سخت بود. اما اکنون آسان شده است. یک لپتاپ میانرده میتواند مدلهایی را اجرا کند که تا چند سال پیش در سطح پیشرو (frontier-class) بودند.
هوش مصنوعی محلی انتخابی درست برای حفظ حریم خصوصی، کاهش هزینه و استفاده آفلاین است.
قانون طلایی هوش مصنوعی محلی: حافظه همه چیز است. چه از VRAM در یک GPU استفاده کنید و چه از حافظه یکپارچه (unified memory) در یک مک، مدل شما باید در حافظه سریع جا شود تا به خوبی اجرا گردد.
راهنمای شروع سریع:
- نصب Ollama یا LM Studio.
- دانلود یک مدل 7B یا 8B.
- استفاده از کوانتیزاسیون Q4_K_M.
- شما در عرض ده دقیقه هوش مصنوعی محلی را اجرا میکنید.
اصطلاحات کلیدی که باید بدانید:
• پارامترها (Parameters): اندازه مدل. یک مدل 7B دارای ۷ میلیارد پارامتر است. پارامترهای بیشتر معمولاً به معنای هوش بیشتر اما مصرف حافظه بالاتر است. • کوانتیزاسیون (Quantization): این کار مدلها را کوچک میکند. در واقع مقدار بسیار کمی از کیفیت را فدای کاهش چشمگیر حجم فایل میکند. Q4_K_M بهترین نقطه تعادل است. • توکنها (Tokens): نحوه خواندن متن توسط مدلها. آنها را به عنوان قطعاتی از کلمات در نظر بگیرید. • پنجره بافت (Context Window): مقدار متنی که مدل در هر لحظه به خاطر میسپارد. • استنتاج (Inference): عمل اجرای مدل برای دریافت پاسخ.
چگونه ابزار خود را انتخاب کنید:
- Ollama: بهترین گزینه برای توسعهدهندگان. این ابزار به عنوان یک سرویس پسزمینه اجرا میشود. اگر به دنبال یک API آسان هستید، از آن استفاده کنید.
- LM Studio: بهترین گزینه برای مبتدیان. رابط کاربری تمیزی دارد. اگر تجربه بصری را میپسندید، از آن استفاده کنید.
- llama.cpp: بهترین گزینه برای متخصصان. کنترل کامل بر روی تمام تنظیمات را فراهم میکند.
استراتژی سختافزاری:
- مکهای دارای Apple Silicon: این دستگاهها به دلیل حافظه یکپارچه عالی هستند. یک مک با ۶۴ گیگابایت رم میتواند مدلهای بسیار بزرگی را اجرا کند.
- پردازندههای گرافیکی NVIDIA: استاندارد صنعت. برای بهترین پشتیبانی نرمافزاری و سرعت، از اینها استفاده کنید.
- لپتاپهای ضعیف: از مدلهای کوچک مانند Phi-4-mini یا Llama 3.2 3B استفاده کنید.
میانبر محاسبات حافظه: در کوانتیزاسیون Q4، هر میلیارد پارامتر حدود ۰.۷ گیگابایت حافظه اشغال میکند. همیشه ۲ گیگابایت اضافی برای سربار (overhead) و بافت (context) در نظر بگیرید.
از تکیه کردن به ابر (cloud) برای همه چیز دست بردارید. کنترل دادهها و محاسبات خود را به دست بگیرید.
Source: https://dev.to/harshdeepsingh13/local-ai-how-to-run-open-source-ai-models-locally-4pi2
Optional learning community: https://t.me/GyaanSetuAi
