Ik heb een LLM lokaal gedraaid op mijn ASUS ROG Ally

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 dagen geleden2min read

Ik heb een LLM lokaal gedraaid op mijn ASUS ROG Ally

Ik heb een paar weken lang een lokaal AI-model gedraaid op mijn ASUS ROG Ally. Ik dacht dat het een leuk project zou zijn. In plaats daarvan werd het een les in hardwarelimieten.

Ik gebruikte het niet als vervanging voor de cloud. Ik gebruikte het als een gespecialiseerde tool voor kleine taken. Hier is wat ik heb geleerd over het draaien van AI op handheld-hardware.

De geheugenbarrière

Handhelds maken gebruik van Unified Memory Architecture. Dit betekent dat de CPU en GPU hetzelfde RAM-geheugen delen. Standaard krijgt de GPU een piepklein deel van het geheugen.

Als je model niet in dat deel past, gebruikt het systeem de CPU. Dit maakt de generatie pijnlijk traag.

De oplossing:

Ga naar je BIOS.
Vergroot handmatig de UMA frame buffer.
Ik heb de mijne naar 4 GB verhoogd. Deze aanpassing hielp meer dan welke andere tweak dan ook.

Wat niet werkt

Ik heb geprobeerd zRAM te gebruiken om meer uit mijn geheugen te persen. Dat mislukte. De meeste AI-modellen gebruiken GGUF-bestanden die al gecomprimeerd zijn. Je kunt ze niet verder comprimeren om ruimte te winnen.

Ik heb ook geprobeerd om disk swap te gebruiken als hulp. Swap maakt dingen niet sneller. Het maakt ze onbruikbaar. Als je model afhankelijk is van disk swap, zie je slechts één woord per paar seconden.

De enige reden om swap ingeschakeld te houden, is om te voorkomen dat het systeem je proces afsluit wanneer je RAM-geheugen op is.

Tips voor soepele runs

Als de output van je AI schokkerig of haperend aanvoelt, controleer dan je Linux-kernelinstellingen.

Verlaag je vm.swappiness-waarde.
Dit voorkomt dat het systeem geheugen te vroeg naar swap verplaatst.
Het zorgt ervoor dat de generatie stabiel aanvoelt in plaats van schokkerig.

Modelkeuze draait om de use-case

De meeste mensen zoeken naar het snelste model. Ik koos in plaats daarvan voor een trager, maar scherper model.

Als je in realtime chat, heb je snelheid nodig.
Als je een agent op de achtergrond draait, heb je kwaliteit nodig.

Ik gebruik mijn setup voor taken op de achtergrond. Ik stuur een verzoek en controleer het resultaat later. Omdat ik niet naar het scherm kijk, maakt het me niet uit of een antwoord 40 seconden duurt in plaats van 8. Ik wil het beste antwoord, niet het snelste.

Vermijd reasoning-modellen op handhelds. Het stapsgewijze denkproces kost te veel tijd op zwakke hardware. De kwaliteitswinst is de wachttijd vaak niet waard.

Waar dit goed voor is

Een apparaat met 16 GB is geweldig voor:

Het opstellen van korte e-mails.
Het beoordelen van kleine codefragmenten.
Ruwe dagplanning.
Privétaken die je netwerk niet mogen verlaten.

Het is slecht voor:

Lange documenten.
Diepgaand onderzoek.
Complexe programmeerprojecten.

Lokale AI is een hulpmiddel, geen wonder. Het is perfect voor routinematig, licht werk.

Bron: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optionele leercommunity: https://t.me/GyaanSetuAi

Ik heb een LLM lokaal gedraaid op mijn ASUS ROG Ally

Continue reading

𝗧𝗵𝗲 𝗥𝗶𝗴𝗵𝗍 𝗪𝗮𝘆 𝗧𝗼 𝗕𝗎𝗶𝗹𝗱 𝗔𝗡 𝗔𝗜 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝗍𝗎𝗿𝗲

Hoe ik onze AI API-kosten halveerde terwijl we 99 SLA's behaalden

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗳𝗲𝗲𝗹𝘀 𝘀𝗹𝗼𝘄? 𝗠𝗮𝘆𝗯𝗲 𝗶𝘁'𝘀 𝗻𝗼𝘁 𝗱𝘂𝗺𝗯.

Lokale AI: Hoe je open-source modellen lokaal draait