GGUF: మీ ల్యాప్‌టాప్‌లో AIని నడపడానికి ఉపయోగపడే ఫైల్ ఫార్మాట్

Translated for your language. Read the original.

AI-assisted draft.

GGUF: మీ ల్యాప్‌టాప్‌లో AIని నడపడానికి ఉపయోగపడే ఫైల్ ఫార్మాట్

In this article

GGUF: మీ లాప్‌టాప్‌లో AIని నడిపే ఫైల్ ఫార్మాట్

లార్జ్ లాంగ్వేజ్ మోడల్‌ను (large language model) నడపడానికి మీకు భారీ సర్వర్ అవసరం లేదు. మీకు సరైన ఫైల్ ఫార్మాట్ ఉంటే సరిపోతుంది.

మీరు Ollama లేదా LM Studio ఉపయోగిస్తుంటే, మీరు ఇప్పటికే GGUFని ఉపయోగిస్తున్నారు. ఈ ఫార్మాట్ ఇంటెలిజెన్స్‌ను డేటా సెంటర్ల నుండి మీ స్వంత పరికరానికి చేర్చడం ద్వారా AI రంగంలో మార్పు తెచ్చింది.

GGUF అంటే ఏమిటి?

GGUF అనేది ఒకే ఒక బైనరీ ఫైల్. ఇది మోడల్ వెయిట్స్ (model weights), టోకనైజర్ (tokenizer) మరియు ఆర్కిటెక్చర్ మెటాడేటాను కలిపి ఉంచుతుంది. దీని కోసం మీకు అదనపు కాన్ఫిగరేషన్ ఫోల్డర్లు లేదా సంక్లిష్టమైన Python ఎన్విరాన్‌మెంట్లు అవసరం లేదు. ఇది వెంటనే పనిచేస్తుంది.

ఫైల్ పేరులోని క్వాంటైజేషన్ (quantization) ఎంపిక అనేది ఒక నిర్ణయం. Q4_K_M వంటి పేరు, వేగం మరియు పరిమాణం (size) కోసం మీరు ఎంత నాణ్యతను (quality) వదులుకుంటున్నారో మీకు తెలియజేస్తుంది.

పేర్లను ఎలా చదవాలి:

ఆ సంఖ్య ప్రతి వెయిట్‌కు ఉండే బిట్స్ (bits per weight). Q8 ఎనిమిది బిట్‌లను ఉపయోగిస్తుంది. Q4 నాలుగు బిట్‌లను ఉపయోగిస్తుంది.
K-quants ఆధునిక ప్రమాణం. నాణ్యతను ఎక్కువగా ఉంచడానికి ఇవి ముఖ్యమైన లేయర్లపై ఎక్కువ బిట్‌లను ఉపయోగిస్తాయి.
సఫిక్స్ (suffix) మీకు పరిమాణాన్ని తెలియజేస్తుంది. M అంటే మీడియం (medium). S అంటే స్మాల్ (small). L అంటే లార్జ్ (large).

మీ హార్డ్‌వేర్ కోసం ఒక చిన్న గైడ్:

ప్రత్యేక GPU లేదా 8GB VRAM లేకపోతే: Q4_K_M ఉపయోగించండి. ఇది పరిమాణం మరియు తెలివితేటల మధ్య ఉత్తమ సమతుల్యతను అందిస్తుంది.
12GB నుండి 16GB VRAM ఉంటే: అధిక నాణ్యత కోసం Q5_K_M లేదా Q6_K ఉపయోగించండి.
24GB+ VRAM లేదా ఖచ్చితమైన పని కోసం: Q8_0 ఉపయోగించండి. గణితం మరియు కోడింగ్ కోసం ఇందులో నాణ్యత నష్టం దాదాపు ఉండదు.

పరిమాణం ఎందుకు ముఖ్యం?

టెక్స్ట్ జనరేషన్ మెమరీ బ్యాండ్‌విడ్త్ (memory bandwidth) పై ఆధారపడి ఉంటుంది. ఫైల్ పరిమాణం తక్కువగా ఉంటే, కంప్యూటర్ ప్రతి పదాన్ని రాయడానికి తక్కువ బైట్‌లను చదువుతుంది. ఇది మోడల్ టైపింగ్‌ను వేగవంతం చేస్తుంది.

Q4 మోడల్ తరచుగా Q8 మోడల్ కంటే వేగంగా నడుస్తుంది. అది వేగంగా ఆలోచించదు, కేవలం తక్కువ డేటాను చదువుతుంది.

లాభనష్టాల సమతుల్యత (The trade-off):

చాట్ మరియు రైటింగ్ కోసం: Q4_K_M సరిపోతుంది. 1 నుండి 3 శాతం నాణ్యత నష్టం పెద్దగా తెలియదు.
గణితం మరియు కోడింగ్ కోసం: Q8_0 ఉపయోగించండి. 4-బిట్ మోడల్స్‌లో చిన్న తప్పులు కూడా సంక్లిష్టమైన లాజిక్‌ను దెబ్బతీస్తాయి.

మీ సెట్టింగ్‌లను ఊహించడం ఆపండి. మీ మెమరీని చూసి సరైన క్వాంటైజెంట్‌ను ఎంచుకోండి.

Source: https://dev.to/sayed_ali_alkamel/gguf-explained-the-file-format-that-put-llms-on-your-laptop-12lh

Optional learning community: https://t.me/GyaanSetuAi