Ho eseguito un LLM localmente sul mio ASUS ROG Ally

Ho eseguito un modello di IA locale sul mio ASUS ROG Ally per alcune settimane. Pensavo che sarebbe stato un progetto divertente. Invece, si è trasformato in una lezione sui limiti dell'hardware.

Non l'ho usato come sostituto del cloud. L'ho usato come strumento specializzato per piccoli compiti. Ecco cosa ho imparato sull'esecuzione dell'IA su hardware portatile.

La barriera della memoria

I dispositivi portatili utilizzano l'architettura a memoria unificata (Unified Memory Architecture). Ciò significa che la CPU e la GPU condividono la stessa RAM. Per impostazione predefinita, la GPU riceve una piccolissima porzione di memoria.

Se il tuo modello non rientra in quella porzione, il sistema utilizza la CPU. Questo rende la generazione dolorosamente lenta.

La soluzione:

  • Entra nel BIOS.
  • Aumenta manualmente l'UMA frame buffer.
  • Io l'ho portato a 4 GB. Questo cambiamento ha aiutato più di qualsiasi altra ottimizzazione.

Cosa non funziona

Ho provato a usare zRAM per spremere più memoria possibile. Non ha funzionato. La maggior parte dei modelli di IA utilizza file GGUF che sono già compressi. Non è possibile comprimerli ulteriormente per guadagnare spazio.

Ho provato anche a usare lo swap su disco per aiutare. Lo swap non velocizza le cose. Le rende inutilizzabili. Se il tuo modello si affida allo swap su disco, vedrai solo una parola ogni pochi secondi.

L'unico motivo per mantenere lo swap abilitato è evitare che il sistema interrompa il processo quando la RAM si esaurisce.

Consigli per un'esecuzione fluida

Se l'output della tua IA sembra a scatti o instabile, controlla le impostazioni del kernel Linux.

  • Abbassa il valore di vm.swappiness.
  • Questo impedisce al sistema di spostare la memoria nello swap troppo presto.
  • Rende la generazione fluida invece di procedere a scatti.

La scelta del modello dipende dal caso d'uso

La maggior parte delle persone cerca il modello più veloce. Io, invece, ho scelto un modello più lento ma più preciso.

  • Se chatti in tempo reale, hai bisogno di velocità.
  • Se esegui un agente in background, hai bisogno di qualità.

Uso la mia configurazione per i compiti in background. Invio una richiesta e controllo il risultato in seguito. Poiché non sto guardando lo schermo, non mi importa se una risposta richiede 40 secondi invece di 8. Voglio la risposta migliore, non la più veloce.

Evita i modelli di ragionamento (reasoning models) sui dispositivi portatili. Il processo di pensiero passo dopo passo richiede troppo tempo su hardware poco potente. Il guadagno in qualità spesso non vale l'attesa.

Per cosa è utile

Un dispositivo da 16 GB è ottimo per:

  • Scrivere bozze di brevi email.
  • Revisionare piccoli frammenti di codice.
  • Pianificazione giornaliera approssimativa.
  • Compiti privati che non dovrebbero lasciare la tua rete.

È inadatto per:

  • Documenti lunghi.
  • Ricerche approfondite.
  • Progetti di programmazione complessi.

L'IA locale è uno strumento, non un miracolo. È perfetta per il lavoro di routine e leggero.

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optional learning community: https://t.me/GyaanSetuAi