Ho eseguito un LLM localmente sul mio ASUS ROG Ally

Translated for your language. Leggi l'originale.

AI-assisted draft.

GyaanSetu Editoriall’altro ieri2min di lettura

In questo articolo

Ho eseguito un LLM localmente sul mio ASUS ROG Ally

Ho eseguito un modello di IA locale sul mio ASUS ROG Ally per alcune settimane. Pensavo che sarebbe stato un progetto divertente. Invece, si è trasformato in una lezione sui limiti dell'hardware.

Non l'ho usato come sostituto del cloud. L'ho usato come strumento specializzato per piccoli compiti. Ecco cosa ho imparato sull'esecuzione dell'IA su hardware portatile.

La barriera della memoria

I dispositivi portatili utilizzano l'architettura a memoria unificata (Unified Memory Architecture). Ciò significa che la CPU e la GPU condividono la stessa RAM. Per impostazione predefinita, la GPU riceve una piccolissima porzione di memoria.

Se il tuo modello non rientra in quella porzione, il sistema utilizza la CPU. Questo rende la generazione dolorosamente lenta.

La soluzione:

Entra nel BIOS.
Aumenta manualmente l'UMA frame buffer.
Io l'ho portato a 4 GB. Questo cambiamento ha aiutato più di qualsiasi altra ottimizzazione.

Cosa non funziona

Ho provato a usare zRAM per spremere più memoria possibile. Non ha funzionato. La maggior parte dei modelli di IA utilizza file GGUF che sono già compressi. Non è possibile comprimerli ulteriormente per guadagnare spazio.

Ho provato anche a usare lo swap su disco per aiutare. Lo swap non velocizza le cose. Le rende inutilizzabili. Se il tuo modello si affida allo swap su disco, vedrai solo una parola ogni pochi secondi.

L'unico motivo per mantenere lo swap abilitato è evitare che il sistema interrompa il processo quando la RAM si esaurisce.

Consigli per un'esecuzione fluida

Se l'output della tua IA sembra a scatti o instabile, controlla le impostazioni del kernel Linux.

Abbassa il valore di vm.swappiness.
Questo impedisce al sistema di spostare la memoria nello swap troppo presto.
Rende la generazione fluida invece di procedere a scatti.

La scelta del modello dipende dal caso d'uso

La maggior parte delle persone cerca il modello più veloce. Io, invece, ho scelto un modello più lento ma più preciso.

Se chatti in tempo reale, hai bisogno di velocità.
Se esegui un agente in background, hai bisogno di qualità.

Uso la mia configurazione per i compiti in background. Invio una richiesta e controllo il risultato in seguito. Poiché non sto guardando lo schermo, non mi importa se una risposta richiede 40 secondi invece di 8. Voglio la risposta migliore, non la più veloce.

Evita i modelli di ragionamento (reasoning models) sui dispositivi portatili. Il processo di pensiero passo dopo passo richiede troppo tempo su hardware poco potente. Il guadagno in qualità spesso non vale l'attesa.

Per cosa è utile

Un dispositivo da 16 GB è ottimo per:

Scrivere bozze di brevi email.
Revisionare piccoli frammenti di codice.
Pianificazione giornaliera approssimativa.
Compiti privati che non dovrebbero lasciare la tua rete.

È inadatto per:

Documenti lunghi.
Ricerche approfondite.
Progetti di programmazione complessi.

L'IA locale è uno strumento, non un miracolo. È perfetta per il lavoro di routine e leggero.

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optional learning community: https://t.me/GyaanSetuAi

Ho eseguito un LLM localmente sul mio ASUS ROG Ally

Ho eseguito un LLM localmente sul mio ASUS ROG Ally

La barriera della memoria

Cosa non funziona

Consigli per un'esecuzione fluida

La scelta del modello dipende dal caso d'uso

Per cosa è utile

Continua a leggere

𝗧𝗵𝗲 𝗥𝗶𝗴𝗵𝗍 𝗪𝗮𝘆 𝗧𝗼 𝗕𝗎𝗶𝗹𝗱 𝗔𝗡 𝗔𝗜 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝗍𝗎𝗿𝗲

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗳𝗲𝗲𝗹𝘀 𝘀𝗹𝗼𝘄? 𝗠𝗮𝘆𝗯𝗲 𝗶𝘁'𝘀 𝗻𝗼𝘁 𝗱𝘂𝗺𝗯.

AI locale: come eseguire modelli open source localmente