אבן, נייר, סיליקון: איך הרצתי מודל AI של 235B על MacBook

רוב האנשים אומרים שאי אפשר להריץ מודלי AI מתקדמים (frontier) על חומרה צרכנית.

כדי להריץ מודל כמו Qwen3-235B, צריך 470 GB של RAM. למכשיר Mac Studio ברמה גבוהה יש רק 192 GB. התעשייה תגיד לך לשכור GPU בענן במקום זאת.

אני מפתח ווב, לא מהנדס מערכות. אני לא עובד עם GPU kernels או זיכרון ברמה נמוכה (low-level). אבל הייתה לי שאלה: מה אם תטען רק את חלקי המודל שבאמת פועלים?

במודל Mixture of Experts (MoE), רוב הפרמטרים נשארים "דוממים" רוב הזמן. החלטתי לבנות מערכת שטוענת משקולות (weights) בדיוק לפני שהן נחוצות.

השתמשתי בסוכן AI כדי לעזור לי לכתוב את קוד ה-C++. אני הבאתי את הסקרנות, והסוכן הביא את עומק המימוש.

ההשראה שלי הגיעה ממאמר לוויין של Filippo Biondi. הוא השתמש במכ"ם כדי לראות בתוך הפירמידה הגדולה של גיזה. מכ"ם לא יכול לחדור סלע, אבל הוא יכול למדוד את הרעידות שהסלע יוצר כשפוגעים בו. הוא מדד את הרעידות הללו כדי למפות את הפנים.

יישמתי את הלוגיקה הזו על זיכרון AI.

אני קורא לזה S-MoE (Seismic Mixture of Experts). זה עובד באמצעות שלושה זרמים:

• ה-Scout: חלק קל משקל של המודל שרץ ב-RAM. הוא חוזה אילו מומחים (experts) יופעלו בשלב הבא. • ה-Streamer: תהליכון (thread) I/O שטוען את בלוקי המומחים הספציפיים הללו מה-SSD שלך לזיכרון. • ה-GPU: מבצע את החישובים באמצעות המשקולות שהגיעו זה עתה.

המערכת הזו משתמשת ב-Direct I/O כדי לעקוף את ה-cache של מערכת ההפעלה. היא אינה משתמשת בהקצאות heap בזמן ריצה. היא נמנעת מכל ה-mutexes של מערכת ההפעלה.

התוצאה? Mac עם 16 GB ו-Mac עם 512 GB יפיקו בדיוק את אותה אינטליגנציה ממודל 235B. אחד פשוט מהיר יותר מהשני.

"קיר הזיכרון" סביב AI הוא הנחה תוכנתית, לא חוק טבע. אתם יכולים להריץ מודלים מתקדמים על החומרה שכבר בבעלותכם.

S-MoE הוא קוד פתוח.

מקור: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi