سنگ، کاغذ، سیلیکون: چگونه یک مدل هوش مصنوعی ۲۳۵ میلیاردی را روی یک مک‌بوک اجرا کردم

اکثر مردم می‌گویند نمی‌توان مدل‌های پیشرو هوش مصنوعی را روی سخت‌افزارهای مصرف‌کننده (consumer hardware) اجرا کرد.

برای اجرای مدلی مانند Qwen3-235B، به ۴۷۰ گیگابایت رم نیاز دارید. یک Mac Studio رده‌بالا تنها ۱۹۲ گیگابایت رم دارد. صنعت به شما می‌گوید که به جای آن، یک GPU ابری اجاره کنید.

من یک توسعه‌دهنده وب هستم، نه یک مهندس سیستم. من با هسته‌های GPU یا حافظه سطح پایین کار نمی‌کنم. اما یک سوال داشتم: چه می‌شد اگر فقط بخش‌هایی از مدل را بارگذاری می‌کردیم که واقعاً فعال می‌شوند؟

در یک مدل Mixture of Experts (MoE)، بیشتر پارامترها در بیشتر مواقع خاموش می‌مانند. من تصمیم گرفتم سیستمی بسازم که وزن‌ها را درست قبل از اینکه مورد نیاز باشند، بارگذاری کند.

من از یک عامل هوش مصنوعی (AI agent) برای کمک به نوشتن کد C++ استفاده کردم. من کنجکاوی را آوردم و عامل هوش مصنوعی عمق پیاده‌سازی را فراهم کرد.

الهام‌بخش من یک مقاله ماهواره‌ای از Filippo Biondi بود. او از رادار برای دیدن داخل هرم بزرگ جیزه استفاده کرد. رادار نمی‌تواند در سنگ نفوذ کند، اما می‌تواند ارتعاشاتی را که سنگ هنگام برخورد ایجاد می‌کند، اندازه‌گیری کند. او آن ارتعاشات را برای نقشه‌برداری از فضای داخلی اندازه‌گیری کرد.

من این منطق را در مورد حافظه هوش مصنوعی به کار گرفتم.

من این را S-MoE (Seismic Mixture of Experts) می‌نامم. این سیستم با استفاده از سه جریان کار می‌کند:

• Scout (پیش‌رو): بخش سبک‌وزنی از مدل که در RAM اجرا می‌شود. این بخش پیش‌بینی می‌کند که کدام متخصص‌ها (experts) در مرحله بعد فعال خواهند شد. • Streamer (جاری‌ساز): یک رشته (thread) ورودی/خروجی (I/O) که آن بلوک‌های متخصص خاص را از SSD شما به حافظه بارگذاری می‌کند. • GPU: محاسبات را با استفاده از وزن‌هایی که تازه رسیده‌اند، انجام می‌دهد.

این سیستم از Direct I/O برای دور زدن حافظه پنهان (cache) سیستم‌عامل استفاده می‌کند. این سیستم از هیچ تخصیص حافظه Heap در زمان اجرا استفاده نمی‌کند و از تمام Mutexهای سیستم‌عامل اجتناب می‌کند.

نتیجه؟ یک مک ۱۶ گیگابایتی و یک مک ۵۱۲ گیگابایتی، هوش دقیقاً یکسانی را از یک مدل ۲۳۵ میلیاردی تولید می‌کنند. فقط یکی از آن‌ها سریع‌تر از دیگری است.

دیوار حافظه (memory wall) در حوزه هوش مصنوعی یک فرض نرم‌افزاری است، نه یک قانون طبیعت. شما می‌توانید مدل‌های پیشرو را روی سخت‌افزاری که در حال حاضر دارید اجرا کنید.

S-MoE متن‌باز است.

منبع: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi