Ik heb een LLM lokaal gedraaid op mijn ASUS ROG Ally

Ik heb een paar weken lang een lokaal AI-model gedraaid op mijn ASUS ROG Ally. Ik dacht dat het een leuk project zou zijn. In plaats daarvan werd het een les in hardwarelimieten.

Ik gebruikte het niet als vervanging voor de cloud. Ik gebruikte het als een gespecialiseerde tool voor kleine taken. Hier is wat ik heb geleerd over het draaien van AI op handheld-hardware.

De geheugenbarrière

Handhelds maken gebruik van Unified Memory Architecture. Dit betekent dat de CPU en GPU hetzelfde RAM-geheugen delen. Standaard krijgt de GPU een piepklein deel van het geheugen.

Als je model niet in dat deel past, gebruikt het systeem de CPU. Dit maakt de generatie pijnlijk traag.

De oplossing:

  • Ga naar je BIOS.
  • Vergroot handmatig de UMA frame buffer.
  • Ik heb de mijne naar 4 GB verhoogd. Deze aanpassing hielp meer dan welke andere tweak dan ook.

Wat niet werkt

Ik heb geprobeerd zRAM te gebruiken om meer uit mijn geheugen te persen. Dat mislukte. De meeste AI-modellen gebruiken GGUF-bestanden die al gecomprimeerd zijn. Je kunt ze niet verder comprimeren om ruimte te winnen.

Ik heb ook geprobeerd om disk swap te gebruiken als hulp. Swap maakt dingen niet sneller. Het maakt ze onbruikbaar. Als je model afhankelijk is van disk swap, zie je slechts één woord per paar seconden.

De enige reden om swap ingeschakeld te houden, is om te voorkomen dat het systeem je proces afsluit wanneer je RAM-geheugen op is.

Tips voor soepele runs

Als de output van je AI schokkerig of haperend aanvoelt, controleer dan je Linux-kernelinstellingen.

  • Verlaag je vm.swappiness-waarde.
  • Dit voorkomt dat het systeem geheugen te vroeg naar swap verplaatst.
  • Het zorgt ervoor dat de generatie stabiel aanvoelt in plaats van schokkerig.

Modelkeuze draait om de use-case

De meeste mensen zoeken naar het snelste model. Ik koos in plaats daarvan voor een trager, maar scherper model.

  • Als je in realtime chat, heb je snelheid nodig.
  • Als je een agent op de achtergrond draait, heb je kwaliteit nodig.

Ik gebruik mijn setup voor taken op de achtergrond. Ik stuur een verzoek en controleer het resultaat later. Omdat ik niet naar het scherm kijk, maakt het me niet uit of een antwoord 40 seconden duurt in plaats van 8. Ik wil het beste antwoord, niet het snelste.

Vermijd reasoning-modellen op handhelds. Het stapsgewijze denkproces kost te veel tijd op zwakke hardware. De kwaliteitswinst is de wachttijd vaak niet waard.

Waar dit goed voor is

Een apparaat met 16 GB is geweldig voor:

  • Het opstellen van korte e-mails.
  • Het beoordelen van kleine codefragmenten.
  • Ruwe dagplanning.
  • Privétaken die je netwerk niet mogen verlaten.

Het is slecht voor:

  • Lange documenten.
  • Diepgaand onderzoek.
  • Complexe programmeerprojecten.

Lokale AI is een hulpmiddel, geen wonder. Het is perfect voor routinematig, licht werk.

Bron: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optionele leercommunity: https://t.me/GyaanSetuAi