سنگ، کاغذ، سیلیکون: چگونه یک مدل هوش مصنوعی ۲۳۵ میلیاردی را روی یک مکبوک اجرا کردم
اکثر مردم میگویند نمیتوان مدلهای پیشرو هوش مصنوعی را روی سختافزارهای مصرفکننده (consumer hardware) اجرا کرد.
برای اجرای مدلی مانند Qwen3-235B، به ۴۷۰ گیگابایت رم نیاز دارید. یک Mac Studio ردهبالا تنها ۱۹۲ گیگابایت رم دارد. صنعت به شما میگوید که به جای آن، یک GPU ابری اجاره کنید.
من یک توسعهدهنده وب هستم، نه یک مهندس سیستم. من با هستههای GPU یا حافظه سطح پایین کار نمیکنم. اما یک سوال داشتم: چه میشد اگر فقط بخشهایی از مدل را بارگذاری میکردیم که واقعاً فعال میشوند؟
در یک مدل Mixture of Experts (MoE)، بیشتر پارامترها در بیشتر مواقع خاموش میمانند. من تصمیم گرفتم سیستمی بسازم که وزنها را درست قبل از اینکه مورد نیاز باشند، بارگذاری کند.
من از یک عامل هوش مصنوعی (AI agent) برای کمک به نوشتن کد C++ استفاده کردم. من کنجکاوی را آوردم و عامل هوش مصنوعی عمق پیادهسازی را فراهم کرد.
الهامبخش من یک مقاله ماهوارهای از Filippo Biondi بود. او از رادار برای دیدن داخل هرم بزرگ جیزه استفاده کرد. رادار نمیتواند در سنگ نفوذ کند، اما میتواند ارتعاشاتی را که سنگ هنگام برخورد ایجاد میکند، اندازهگیری کند. او آن ارتعاشات را برای نقشهبرداری از فضای داخلی اندازهگیری کرد.
من این منطق را در مورد حافظه هوش مصنوعی به کار گرفتم.
من این را S-MoE (Seismic Mixture of Experts) مینامم. این سیستم با استفاده از سه جریان کار میکند:
• Scout (پیشرو): بخش سبکوزنی از مدل که در RAM اجرا میشود. این بخش پیشبینی میکند که کدام متخصصها (experts) در مرحله بعد فعال خواهند شد. • Streamer (جاریساز): یک رشته (thread) ورودی/خروجی (I/O) که آن بلوکهای متخصص خاص را از SSD شما به حافظه بارگذاری میکند. • GPU: محاسبات را با استفاده از وزنهایی که تازه رسیدهاند، انجام میدهد.
این سیستم از Direct I/O برای دور زدن حافظه پنهان (cache) سیستمعامل استفاده میکند. این سیستم از هیچ تخصیص حافظه Heap در زمان اجرا استفاده نمیکند و از تمام Mutexهای سیستمعامل اجتناب میکند.
نتیجه؟ یک مک ۱۶ گیگابایتی و یک مک ۵۱۲ گیگابایتی، هوش دقیقاً یکسانی را از یک مدل ۲۳۵ میلیاردی تولید میکنند. فقط یکی از آنها سریعتر از دیگری است.
دیوار حافظه (memory wall) در حوزه هوش مصنوعی یک فرض نرمافزاری است، نه یک قانون طبیعت. شما میتوانید مدلهای پیشرو را روی سختافزاری که در حال حاضر دارید اجرا کنید.
S-MoE متنباز است.
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi
