Камень, бумага, кремний: как я запустил ИИ-модель на 235B параметров на MacBook

Большинство утверждает, что передовые ИИ-модели невозможно запустить на потребительском оборудовании.

Для запуска такой модели, как Qwen3-235B, требуется 470 ГБ оперативной памяти. У топового Mac Studio всего 192 ГБ. Индустрия советует вместо этого арендовать облачный GPU.

Я веб-разработчик, а не системный инженер. Я не работаю с ядрами GPU или низкоуровневой памятью. Но у меня возник вопрос: что, если загружать только те части модели, которые фактически активируются?

В моделях типа Mixture of Experts (MoE) большинство параметров большую часть времени остаются неактивными. Я решил создать систему, которая загружает веса непосредственно перед тем, как они понадобятся.

Для написания кода на C++ я использовал ИИ-агента. Я привнес любопытство, а агент — глубину реализации.

Вдохновением послужила научная работа Филиппо Бионди, посвященная спутниковым исследованиям. Он использовал радар, чтобы заглянуть внутрь Великой пирамиды Гизы. Радар не может проникать сквозь камень, но он может измерять вибрации, которые возникают в камне при ударе. Он измерил эти вибрации, чтобы составить карту внутреннего устройства.

Я применил эту логику к памяти ИИ.

Я назвал это S-MoE (Seismic Mixture of Experts). Система работает через три потока:

• Scout: Легковесная часть модели, работающая в RAM. Она предсказывает, какие эксперты активируются следующими. • Streamer: I/O-поток, который загружает конкретные блоки экспертов с SSD в память. • GPU: Выполняет математические вычисления, используя только что поступившие веса.

Эта система использует Direct I/O, чтобы обойти кэш ОС. В ней нет аллокаций в куче во время выполнения. Она избегает всех мьютексов ОС.

Результат? Mac с 16 ГБ и Mac с 512 ГБ выдадут абсолютно одинаковый уровень интеллекта при работе с моделью 235B. Просто один будет быстрее другого.

«Стена памяти» в сфере ИИ — это программное допущение, а не закон природы. Вы можете запускать передовые модели на том оборудовании, которое у вас уже есть.

S-MoE — это проект с открытым исходным кодом.

Источник: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

Опциональное обучающее сообщество: https://t.me/GyaanSetuAi