I Ran an LLM Locally on my ASUS ROG Ally

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialhá 3 dias2min de leitura

I Ran an LLM Locally on my ASUS ROG Ally

Rodei um LLM Localmente no meu ASUS ROG Ally

Rodei um modelo de IA local no meu ASUS ROG Ally por algumas semanas. Achei que seria um projeto divertido. Em vez disso, tornou-se uma lição sobre limites de hardware.

Não o utilizei como um substituto para a nuvem. Usei-o como uma ferramenta especializada para tarefas pequenas. Aqui está o que aprendi sobre rodar IA em hardware portátil.

A Barreira de Memória

Dispositivos portáteis utilizam Arquitetura de Memória Unificada (Unified Memory Architecture). Isso significa que a CPU e a GPU compartilham a mesma RAM. Por padrão, a GPU recebe uma fatia minúscula de memória.

Se o seu modelo não couber nessa fatia, o sistema usará a CPU. Isso torna a geração dolorosamente lenta.

A Solução:

Acesse a sua BIOS.
Aumente manualmente o UMA frame buffer.
Eu aumentei o meu para 4 GB. Essa mudança ajudou mais do que qualquer outro ajuste.

O Que Não Funciona

Tentei usar zRAM para extrair mais da minha memória. Não funcionou. A maioria dos modelos de IA usa arquivos GGUF, que já estão comprimidos. Você não pode comprimi-los ainda mais para ganhar espaço.

Também tentei usar o swap de disco para ajudar. O swap não torna as coisas mais rápidas. Ele as torna inutilizáveis. Se o seu modelo depender do swap de disco, você verá apenas uma palavra a cada poucos segundos.

O único motivo para manter o swap ativado é evitar que o sistema encerre o seu processo quando a RAM acabar.

Dicas para Execuções Suaves

Se a saída da sua IA parecer travada ou instável, verifique as configurações do kernel do Linux.

Diminua o seu valor de vm.swappiness.
Isso impede que o sistema mova a memória para o swap cedo demais.
Isso faz com que a geração pareça constante em vez de dar soluços.

A Escolha do Modelo depende do Caso de Uso

A maioria das pessoas procura o modelo mais rápido. Eu escolhi um modelo mais lento e mais preciso.

Se você conversa em tempo real, precisa de velocidade.
Se você executa um agente em segundo plano, precisa de qualidade.

Eu uso minha configuração para tarefas de segundo plano. Eu envio uma solicitação e verifico o resultado mais tarde. Como não estou olhando para a tela, não me importo se uma resposta levar 40 segundos em vez de 8. Eu quero a melhor resposta, não a mais rápida.

Evite modelos de raciocínio (reasoning models) em dispositivos portáteis. O processo de pensamento passo a passo leva muito tempo em hardware limitado. O ganho de qualidade muitas vezes não vale a espera.

Para o Que Isso é Bom

Um dispositivo de 16 GB é ótimo para:

Redigir e-mails curtos.
Revisar pequenos trechos de código.
Planejamento diário básico.
Tarefas privadas que não devem sair da sua rede.

É ruim para:

Documentos longos.
Pesquisas profundas.
Projetos de codificação complexos.

IA local é uma ferramenta, não um milagre. É perfeita para trabalhos rotineiros e leves.

Fonte: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

I Ran an LLM Locally on my ASUS ROG Ally

Continuar lendo

A Maneira Certa de Construir uma Arquitetura de IA

Como reduzi nossa conta de API de IA pela metade enquanto atingia 99 SLAs

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗳𝗲𝗲𝗹𝘀 𝘀𝗹𝗼𝘄? 𝗠𝗮𝘆𝗯𝗲 𝗶𝘁'𝘀 𝗻𝗼𝘁 𝗱𝘂𝗺𝗯.

IA Local: Como Executar Modelos de Código Aberto Localmente