Pedra, Papel, Silício: Como rodei um modelo de IA de 235B em um MacBook

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialsemana passada2min de leitura

Pedra, Papel, Silício: Como rodei um modelo de IA de 235B em um MacBook

Pedra, Papel, Silício: Como eu rodei um modelo de IA de 235B em um MacBook

A maioria das pessoas diz que não é possível rodar modelos de IA de fronteira em hardware de consumo.

Para rodar um modelo como o Qwen3-235B, você precisa de 470 GB de RAM. Um Mac Studio de ponta tem apenas 192 GB. A indústria diz para você alugar uma GPU na nuvem em vez disso.

Eu sou um desenvolvedor web, não um engenheiro de sistemas. Não trabalho com kernels de GPU ou memória de baixo nível. Mas eu tinha uma pergunta: e se você carregasse apenas as partes do modelo que realmente são ativadas?

Em um modelo Mixture of Experts (MoE), a maioria dos parâmetros permanece silenciosa na maior parte do tempo. Decidi construir um sistema que carrega os pesos logo antes de serem necessários.

Usei um agente de IA para me ajudar a escrever o código em C++. Eu trouxe a curiosidade, e o agente trouxe a profundidade da implementação.

Minha inspiração veio de um artigo de satélite de Filippo Biondi. Ele usou radar para ver o interior da Grande Pirâmide de Gizé. O radar não consegue penetrar na rocha, mas pode medir as vibrações que a rocha faz quando atingida. Ele mediu essas vibrações para mapear o interior.

Apliquei essa lógica à memória de IA.

Eu chamo isso de S-MoE (Seismic Mixture of Experts). Ele funciona usando três fluxos:

• The Scout: Uma parte leve do modelo que roda na RAM. Ele prevê quais especialistas serão ativados a seguir. • The Streamer: Uma thread de I/O que carrega esses blocos de especialistas específicos do seu SSD para a memória. • The GPU: Executa os cálculos matemáticos usando os pesos que acabaram de chegar.

Este sistema usa Direct I/O para ignorar o cache do SO. Não utiliza alocações de heap em tempo de execução. Evita todos os mutexes do SO.

O resultado? Um Mac de 16 GB e um Mac de 512 GB produzirão exatamente a mesma inteligência de um modelo de 235B. Um é apenas mais rápido que o outro.

A barreira de memória (memory wall) em torno da IA é uma suposição de software, não uma lei da natureza. Você pode rodar modelos de fronteira no hardware que já possui.

O S-MoE é de código aberto.

Fonte: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

Pedra, Papel, Silício: Como rodei um modelo de IA de 235B em um MacBook

Continuar lendo

RAM é a nova GPU

Execute o GLM 5.2 Localmente no seu Computador

IA Local: Como Executar Modelos de Código Aberto Localmente

I Ran an LLM Locally on my ASUS ROG Ally

Qwen 3.6 27B: O Guia do Engenheiro para IA Local