Piedra, papel, silicio: Cómo ejecuté un modelo de IA de 235B en un MacBook

Translated for your language. Leer el original.

AI-assisted draft.

GyaanSetu Editorialla semana pasada2min de lectura

Piedra, papel, silicio: Cómo ejecuté un modelo de IA de 235B en un MacBook

La mayoría de la gente dice que no se pueden ejecutar modelos de IA de vanguardia en hardware de consumo.

Para ejecutar un modelo como Qwen3-235B, necesitas 470 GB de RAM. Un Mac Studio de gama alta solo tiene 192 GB. La industria te dice que, en su lugar, alquiles una GPU en la nube.

Soy desarrollador web, no ingeniero de sistemas. No trabajo con kernels de GPU ni memoria de bajo nivel. Pero tenía una pregunta: ¿Qué pasaría si solo cargaras las partes del modelo que realmente se activan?

En un modelo de Mezcla de Expertos (MoE, por sus siglas en inglés), la mayoría de los parámetros permanecen inactivos la mayor parte del tiempo. Decidí construir un sistema que cargue los pesos justo antes de que sean necesarios.

Utilicé un agente de IA para que me ayudara a escribir el código en C++. Yo aporté la curiosidad y el agente aportó la profundidad de la implementación.

Mi inspiración provino de un artículo satelital de Filippo Biondi. Él utilizó radar para ver el interior de la Gran Pirámide de Giza. El radar no puede penetrar la roca, pero puede medir las vibraciones que la roca produce al ser golpeada. Él midió esas vibraciones para mapear el interior.

Apliqué esta lógica a la memoria de la IA.

A esto lo llamo S-MoE (Seismic Mixture of Experts). Funciona utilizando tres flujos:

• El Scout: Una parte ligera del modelo que se ejecuta en la RAM. Predice qué expertos se activarán a continuación. • El Streamer: Un hilo de E/S que carga esos bloques de expertos específicos desde tu SSD a la memoria. • La GPU: Ejecuta los cálculos matemáticos utilizando los pesos que acaban de llegar.

Este sistema utiliza Direct I/O para omitir la caché del sistema operativo. No utiliza asignaciones de memoria heap en tiempo de ejecución. Evita todos los mutex del sistema operativo.

¿El resultado? Un Mac de 16 GB y un Mac de 512 GB producirán exactamente la misma inteligencia a partir de un modelo de 235B. Uno es simplemente más rápido que el otro.

El muro de la memoria en torno a la IA es un supuesto de software, no una ley de la naturaleza. Puedes ejecutar modelos de vanguardia en el hardware que ya posees.

S-MoE es de código abierto.

Fuente: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

Piedra, papel, silicio: Cómo ejecuté un modelo de IA de 235B en un MacBook

Seguir leyendo

𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨

Ejecuta GLM 5.2 localmente en tu escritorio

IA local: Cómo ejecutar modelos de código abierto localmente

Ejecuté un LLM localmente en mi ASUS ROG Ally

Qwen 3.6 27B: La guía del ingeniero para la IA local