GGUF: आपके लैपटॉप पर AI चलाने वाला फ़ाइल फ़ॉर्मेट

लार्ज लैंग्वेज मॉडल चलाने के लिए आपको किसी विशाल सर्वर की आवश्यकता नहीं है। आपको बस सही फ़ाइल फ़ॉर्मेट की ज़रूरत है।

यदि आप Ollama या LM Studio का उपयोग करते हैं, तो आप पहले से ही GGUF का उपयोग कर रहे हैं। इस फ़ॉर्मेट ने बुद्धिमत्ता (intelligence) को डेटा सेंटरों से आपके अपने डिवाइस तक लाकर AI को बदल दिया है।

GGUF क्या है?

GGUF एक सिंगल बाइनरी फ़ाइल है। यह मॉडल वेट्स (weights), टोकनाइज़र (tokenizer) और आर्किटेक्चर मेटाडेटा को एक साथ पैक करता है। आपको अतिरिक्त कॉन्फ़िगरेशन फ़ोल्डर्स या जटिल Python एनवायरनमेंट की आवश्यकता नहीं है। यह तुरंत काम करता है।

फ़ाइल के नाम में क्वांटिज़ेशन (quantization) का चुनाव एक निर्णय है। Q4_K_M जैसा नाम आपको बताता है कि आप गति और आकार के लिए कितनी गुणवत्ता (quality) का त्याग कर रहे हैं।

नामों को कैसे समझें:

  • संख्या प्रति वेट (weight) बिट्स है। Q8 आठ बिट्स का उपयोग करता है। Q4 चार बिट्स का उपयोग करता है।
  • K-quants आधुनिक मानक हैं। वे गुणवत्ता को उच्च बनाए रखने के लिए महत्वपूर्ण लेयर्स पर अधिक बिट्स खर्च करते हैं।
  • प्रत्यय (suffix) आपको आकार बताता है। M का अर्थ है मीडियम (medium), S का अर्थ है स्मॉल (small) और L का अर्थ है लार्ज (large)।

आपके हार्डवेयर के लिए एक त्वरित गाइड:

  • कोई समर्पित GPU या 8GB VRAM नहीं: Q4_K_M का उपयोग करें। यह आकार और बुद्धिमत्ता का सबसे अच्छा संतुलन है।
  • 12GB से 16GB VRAM: उच्च गुणवत्ता के लिए Q5_K_M या Q6_K का उपयोग करें।
  • 24GB+ VRAM या सटीक कार्य के लिए: Q8_0 का उपयोग करें। गणित और कोड के लिए इसमें लगभग कोई गुणवत्ता हानि नहीं होती है।

आकार क्यों मायने रखता है?

टेक्स्ट जनरेशन मेमोरी बैंडविड्थ पर निर्भर करता है। एक छोटी फ़ाइल का मतलब है कि कंप्यूटर प्रत्येक शब्द लिखने के लिए कम बाइट्स पढ़ता है। इससे मॉडल तेज़ चलता है।

एक Q4 मॉडल अक्सर Q8 मॉडल की तुलना में तेज़ चलता है। यह तेज़ सोचता नहीं है। यह बस कम पढ़ता है।

ट्रेड-ऑफ (Trade-off):

  • चैट और लेखन के लिए: Q4_K_M एकदम सही है। 1 से 3 प्रतिशत की गुणवत्ता हानि अदृश्य होती है।
  • गणित और कोडिंग के लिए: Q8_0 का उपयोग करें। 4-बिट मॉडल में छोटी गलतियाँ जटिल लॉजिक को खराब कर सकती हैं।

अपनी सेटिंग्स का अंदाज़ा लगाना बंद करें। अपनी मेमोरी देखें और सही क्वांट (quant) चुनें।

Source: https://dev.to/sayed_ali_alkamel/gguf-explained-the-file-format-that-put-llms-on-your-laptop-12lh

Optional learning community: https://t.me/GyaanSetuAi