GGUF: فرمت فایلی که هوش مصنوعی را روی لپ‌تاپ شما اجرا می‌کند

برای اجرای یک مدل زبانی بزرگ، نیازی به یک سرور عظیم ندارید. شما فقط به فرمت فایل مناسب نیاز دارید.

اگر از Ollama یا LM Studio استفاده می‌کنید، در واقع همین حالا هم از GGUF استفاده می‌کنید. این فرمت با انتقال هوش از مراکز داده به دستگاه شخصی شما، دنیای هوش مصنوعی را تغییر داد.

GGUF چیست؟

GGUF یک فایل باینری واحد است. این فایل وزن‌های مدل، توکنایزر (tokenizer) و متادیتای معماری را در کنار هم بسته‌بندی می‌کند. شما به پوشه‌های تنظیمات اضافی یا محیط‌های پیچیده Python نیاز ندارید. بلافاصله کار می‌کند.

انتخاب کوانتیزاسیون (quantization) در نام فایل، یک تصمیم است. نامی مانند Q4_K_M به شما می‌گوید که چه مقدار از کیفیت را در ازای سرعت و حجم کمتر فدا می‌کنید.

نحوه خواندن نام‌ها:

  • عدد نشان‌دهنده بیت‌ها در هر وزن است. Q8 از هشت بیت استفاده می‌کند. Q4 از چهار بیت استفاده می‌کند.
  • K-quants استاندارد مدرن هستند. آن‌ها بیت‌های بیشتری را صرف لایه‌های مهم می‌کنند تا کیفیت را بالا نگه دارند.
  • پسوند، اندازه را به شما می‌گوید. M مخفف medium (متوسط)، S مخفف small (کوچک) و L مخفف large (بزرگ) است.

راهنمای سریع برای سخت‌افزار شما:

  • بدون GPU اختصاصی یا ۸ گیگابایت VRAM: از Q4_K_M استفاده کنید. این بهترین تعادل بین حجم و هوشمندی است.
  • ۱۲ تا ۱۶ گیگابایت VRAM: برای کیفیت بالاتر از Q5_K_M یا Q6_K استفاده کنید.
  • ۲۴ گیگابایت یا بیشتر VRAM یا کارهای دقیق: از Q8_0 استفاده کنید. این مدل برای ریاضیات و کدنویسی تقریباً هیچ افت کیفیتی ندارد.

چرا اندازه اهمیت دارد؟

تولید متن به پهنای باند حافظه بستگی دارد. فایل کوچک‌تر به این معنی است که کامپیوتر برای نوشتن هر کلمه، بایت‌های کمتری را می‌خواند. این کار باعث می‌شود مدل سریع‌تر عمل کند.

یک مدل Q4 اغلب سریع‌تر از یک مدل Q8 اجرا می‌شود. این به معنای سریع‌تر فکر کردن نیست؛ بلکه صرفاً داده‌های کمتری را می‌خواند.

موازنه (Trade-off):

  • برای چت و نوشتن: Q4_K_M عالی است. افت کیفیت ۱ تا ۳ درصدی تقریباً نامحسوس است.
  • برای ریاضیات و کدنویسی: از Q8_0 استفاده کنید. خطاهای کوچک در مدل‌های ۴ بیتی می‌تواند منطق‌های پیچیده را خراب کند.

از حدس زدن تنظیمات خود دست بردارید. به حافظه خود نگاه کنید و کوانت (quant) مناسب را انتخاب کنید.

منبع: https://dev.to/sayed_ali_alkamel/gguf-explained-the-file-format-that-put-llms-on-your-laptop-12lh

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi