నేను నా ASUS ROG Ally లో ఒక LLM ని లోకల్‌గా రన్ చేశాను

నేను కొన్ని వారాల పాటు నా ASUS ROG Ally లో ఒక లోకల్ AI మోడల్‌ను రన్ చేశాను. ఇది ఒక సరదా ప్రాజెక్ట్ అవుతుందని నేను అనుకున్నాను. కానీ, ఇది హార్డ్‌వేర్ పరిమితుల గురించి ఒక పాఠంగా మారింది.

నేను దీనిని క్లౌడ్ ప్రత్యామ్నాయంగా ఉపయోగించలేదు. చిన్న పనుల కోసం ఒక ప్రత్యేక సాధనంగా (specialized tool) ఉపయోగించాను. హ్యాండ్‌హెల్డ్ హార్డ్‌వేర్‌పై AIని రన్ చేయడం గురించి నేను ఏమి నేర్చుకున్నానో ఇక్కడ ఉంది.

మెమరీ అడ్డంకి (The Memory Barrier)

హ్యాండ్‌హెల్డ్ పరికరాలు Unified Memory Architectureని ఉపయోగిస్తాయి. అంటే CPU మరియు GPU ఒకే RAMని పంచుకుంటాయి. డిఫాల్ట్‌గా, GPUకి చాలా తక్కువ మెమరీ కేటాయించబడుతుంది.

మీ మోడల్ ఆ మెమరీ పరిధిలోకి రాకపోతే, సిస్టమ్ CPUని ఉపయోగిస్తుంది. దీనివల్ల జనరేషన్ ప్రక్రియ చాలా నెమ్మదిగా మారుతుంది.

పరిష్కారం:

  • మీ BIOS లోకి వెళ్లండి.
  • మాన్యువల్‌గా UMA ఫ్రేమ్ బఫర్‌ను పెంచండి.
  • నేను నా దానిని 4 GB కి పెంచాను. ఈ మార్పు ఇతర ఏ మార్పుల కంటే ఎక్కువగా సహాయపడింది.

ఏవి పనిచేయవు

మెమరీని మరింత పెంచుకోవడానికి నేను zRAMని ఉపయోగించడానికి ప్రయత్నించాను. అది విఫలమైంది. చాలా AI మోడల్స్ ఇప్పటికే కంప్రెస్ చేయబడిన GGUF ఫైళ్లను ఉపయోగిస్తాయి. స్థలం కోసం వాటిని మీరు ఇంకా కంప్రెస్ చేయలేరు.

సహాయం కోసం నేను డిస్క్ స్వాప్ (disk swap) ఉపయోగించడానికి కూడా ప్రయత్నించాను. స్వాప్ వల్ల వేగం పెరగదు. అది వాటిని ఉపయోగించలేనంతగా నెమ్మదిస్తుంది. మీ మోడల్ డిస్క్ స్వాప్‌పై ఆధారపడితే, ప్రతి కొన్ని సెకన్లకు ఒకే ఒక పదాన్ని మీరు చూడగలరు.

RAM అయిపోయినప్పుడు సిస్టమ్ మీ ప్రాసెస్‌ను ఆపివేయకుండా (killing your process) ఉండటానికి మాత్రమే స్వాప్‌ను ఎనేబుల్ చేసి ఉంచాలి.

స్మూత్‌గా రన్ చేయడానికి చిట్కాలు

మీ AI అవుట్‌పుట్ సరిగ్గా రాకుండా (choppy or jumpy) ఉంటే, మీ Linux కెర్నల్ సెట్టింగ్‌లను తనిఖీ చేయండి.

  • మీ vm.swappiness విలువను తగ్గించండి.
  • ఇది సిస్టమ్ మెమరీని చాలా త్వరగా స్వాప్‌కి తరలించకుండా నిరోధిస్తుంది.
  • ఇది జనరేషన్ ప్రక్రియ తడబడకుండా స్థిరంగా ఉండేలా చేస్తుంది.

మోడల్ ఎంపిక అనేది ఉపయోగించే విధానం (Use-Case) మీద ఆధారపడి ఉంటుంది

చాలా మంది వేగవంతమైన మోడల్ కోసం వెతుకుతారు. నేను దానికి బదులుగా నెమ్మదిగా ఉన్నా, మరింత ఖచ్చితమైన (sharper) మోడల్‌ను ఎంచుకున్నాను.

  • మీరు రియల్ టైమ్‌లో చాట్ చేయాలనుకుంటే, మీకు వేగం కావాలి.
  • మీరు బ్యాక్‌గ్రౌండ్ ఏజెంట్‌ను రన్ చేయాలనుకుంటే, మీకు నాణ్యత కావాలి.

నేను నా సెటప్‌ను బ్యాక్‌గ్రౌండ్ పనుల కోసం ఉపయోగిస్తాను. నేను ఒక రిక్వెస్ట్ పంపి, ఫలితాన్ని తర్వాత చూస్తాను. నేను స్క్రీన్‌ను చూస్తూ ఉండనందున, సమాధానం 8 సెకన్లకు బదులుగా 40 సెకన్లు తీసుకున్నా నాకు పర్వాలేదు. నాకు కావాల్సింది వేగవంతమైన సమాధానం కాదు, ఉత్తమమైన సమాధానం.

హ్యాండ్‌హెల్డ్ పరికరాలపై రీజనింగ్ మోడల్స్ (reasoning models) వాడకండి. బలహీనమైన హార్డ్‌వేర్‌పై స్టెప్-బై-స్టెప్ ఆలోచనా ప్రక్రియకు చాలా సమయం పడుతుంది. ఆ నాణ్యత కోసం అంతసేపు వేచి చూడటం అంత లాభదాయకం కాదు.

ఇది దేనికి ఉపయోగపడుతుంది

16 GB పరికరం వీటికి అద్భుతంగా ఉంటుంది:

  • చిన్న ఈమెయిల్స్ డ్రాఫ్ట్ చేయడానికి.
  • చిన్న కోడ్ స్నిప్పెట్స్ (code snippets) రివ్యూ చేయడానికి.
  • రోజువారీ ప్లానింగ్ కోసం.
  • మీ నెట్‌వర్క్ నుండి బయటకు వెళ్లకూడదు అనుకునే ప్రైవేట్ పనుల కోసం.

ఇవి వీటికి సరిపోవు:

  • పెద్ద డాక్యుమెంట్లు.
  • లోతైన పరిశోధన (Deep research).
  • సంక్లిష్టమైన కోడింగ్ ప్రాజెక్టులు.

లోకల్ AI అనేది ఒక సాధనం, అద్భుతం కాదు. ఇది రోజువారీ, తేలికపాటి పనులకు సరిగ్గా సరిపోతుంది.

మూలం: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi