నా ASUS ROG Ally లో ఒక LLM ని లోకల్‌గా రన్ చేశాను

Translated for your language. Read the original.

AI-assisted draft.

నేను నా ASUS ROG Ally లో ఒక LLM ని లోకల్‌గా రన్ చేశాను

నేను కొన్ని వారాల పాటు నా ASUS ROG Ally లో ఒక లోకల్ AI మోడల్‌ను రన్ చేశాను. ఇది ఒక సరదా ప్రాజెక్ట్ అవుతుందని నేను అనుకున్నాను. కానీ, ఇది హార్డ్‌వేర్ పరిమితుల గురించి ఒక పాఠంగా మారింది.

నేను దీనిని క్లౌడ్ ప్రత్యామ్నాయంగా ఉపయోగించలేదు. చిన్న పనుల కోసం ఒక ప్రత్యేక సాధనంగా (specialized tool) ఉపయోగించాను. హ్యాండ్‌హెల్డ్ హార్డ్‌వేర్‌పై AIని రన్ చేయడం గురించి నేను ఏమి నేర్చుకున్నానో ఇక్కడ ఉంది.

మెమరీ అడ్డంకి (The Memory Barrier)

హ్యాండ్‌హెల్డ్ పరికరాలు Unified Memory Architectureని ఉపయోగిస్తాయి. అంటే CPU మరియు GPU ఒకే RAMని పంచుకుంటాయి. డిఫాల్ట్‌గా, GPUకి చాలా తక్కువ మెమరీ కేటాయించబడుతుంది.

మీ మోడల్ ఆ మెమరీ పరిధిలోకి రాకపోతే, సిస్టమ్ CPUని ఉపయోగిస్తుంది. దీనివల్ల జనరేషన్ ప్రక్రియ చాలా నెమ్మదిగా మారుతుంది.

పరిష్కారం:

మీ BIOS లోకి వెళ్లండి.
మాన్యువల్‌గా UMA ఫ్రేమ్ బఫర్‌ను పెంచండి.
నేను నా దానిని 4 GB కి పెంచాను. ఈ మార్పు ఇతర ఏ మార్పుల కంటే ఎక్కువగా సహాయపడింది.

ఏవి పనిచేయవు

మెమరీని మరింత పెంచుకోవడానికి నేను zRAMని ఉపయోగించడానికి ప్రయత్నించాను. అది విఫలమైంది. చాలా AI మోడల్స్ ఇప్పటికే కంప్రెస్ చేయబడిన GGUF ఫైళ్లను ఉపయోగిస్తాయి. స్థలం కోసం వాటిని మీరు ఇంకా కంప్రెస్ చేయలేరు.

సహాయం కోసం నేను డిస్క్ స్వాప్ (disk swap) ఉపయోగించడానికి కూడా ప్రయత్నించాను. స్వాప్ వల్ల వేగం పెరగదు. అది వాటిని ఉపయోగించలేనంతగా నెమ్మదిస్తుంది. మీ మోడల్ డిస్క్ స్వాప్‌పై ఆధారపడితే, ప్రతి కొన్ని సెకన్లకు ఒకే ఒక పదాన్ని మీరు చూడగలరు.

RAM అయిపోయినప్పుడు సిస్టమ్ మీ ప్రాసెస్‌ను ఆపివేయకుండా (killing your process) ఉండటానికి మాత్రమే స్వాప్‌ను ఎనేబుల్ చేసి ఉంచాలి.

స్మూత్‌గా రన్ చేయడానికి చిట్కాలు

మీ AI అవుట్‌పుట్ సరిగ్గా రాకుండా (choppy or jumpy) ఉంటే, మీ Linux కెర్నల్ సెట్టింగ్‌లను తనిఖీ చేయండి.

మీ vm.swappiness విలువను తగ్గించండి.
ఇది సిస్టమ్ మెమరీని చాలా త్వరగా స్వాప్‌కి తరలించకుండా నిరోధిస్తుంది.
ఇది జనరేషన్ ప్రక్రియ తడబడకుండా స్థిరంగా ఉండేలా చేస్తుంది.

మోడల్ ఎంపిక అనేది ఉపయోగించే విధానం (Use-Case) మీద ఆధారపడి ఉంటుంది

చాలా మంది వేగవంతమైన మోడల్ కోసం వెతుకుతారు. నేను దానికి బదులుగా నెమ్మదిగా ఉన్నా, మరింత ఖచ్చితమైన (sharper) మోడల్‌ను ఎంచుకున్నాను.

మీరు రియల్ టైమ్‌లో చాట్ చేయాలనుకుంటే, మీకు వేగం కావాలి.
మీరు బ్యాక్‌గ్రౌండ్ ఏజెంట్‌ను రన్ చేయాలనుకుంటే, మీకు నాణ్యత కావాలి.

నేను నా సెటప్‌ను బ్యాక్‌గ్రౌండ్ పనుల కోసం ఉపయోగిస్తాను. నేను ఒక రిక్వెస్ట్ పంపి, ఫలితాన్ని తర్వాత చూస్తాను. నేను స్క్రీన్‌ను చూస్తూ ఉండనందున, సమాధానం 8 సెకన్లకు బదులుగా 40 సెకన్లు తీసుకున్నా నాకు పర్వాలేదు. నాకు కావాల్సింది వేగవంతమైన సమాధానం కాదు, ఉత్తమమైన సమాధానం.

హ్యాండ్‌హెల్డ్ పరికరాలపై రీజనింగ్ మోడల్స్ (reasoning models) వాడకండి. బలహీనమైన హార్డ్‌వేర్‌పై స్టెప్-బై-స్టెప్ ఆలోచనా ప్రక్రియకు చాలా సమయం పడుతుంది. ఆ నాణ్యత కోసం అంతసేపు వేచి చూడటం అంత లాభదాయకం కాదు.

ఇది దేనికి ఉపయోగపడుతుంది

16 GB పరికరం వీటికి అద్భుతంగా ఉంటుంది:

చిన్న ఈమెయిల్స్ డ్రాఫ్ట్ చేయడానికి.
చిన్న కోడ్ స్నిప్పెట్స్ (code snippets) రివ్యూ చేయడానికి.
రోజువారీ ప్లానింగ్ కోసం.
మీ నెట్‌వర్క్ నుండి బయటకు వెళ్లకూడదు అనుకునే ప్రైవేట్ పనుల కోసం.

ఇవి వీటికి సరిపోవు:

పెద్ద డాక్యుమెంట్లు.
లోతైన పరిశోధన (Deep research).
సంక్లిష్టమైన కోడింగ్ ప్రాజెక్టులు.

లోకల్ AI అనేది ఒక సాధనం, అద్భుతం కాదు. ఇది రోజువారీ, తేలికపాటి పనులకు సరిగ్గా సరిపోతుంది.

మూలం: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi

నా ASUS ROG Ally లో ఒక LLM ని లోకల్‌గా రన్ చేశాను

Continue reading

AI ఆర్కిటెక్చర్‌ను రూపొందించడానికి సరైన మార్గం

99 SLAలను సాధిస్తూనే మా AI API బిల్లును నేను ఎలా సగానికి తగ్గించాను

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

మీ AI నెమ్మదిగా అనిపిస్తుందా? బహుశా అది తెలివితక్కువది కాకపోవచ్చు.

Local AI: How to Run Open Source Models Locally