Rock, Paper, Silicon: എങ്ങനെ ഞാൻ ഒരു MacBook-ൽ 235B AI മോഡൽ പ്രവർത്തിപ്പിച്ചു

സാധാരണ ഉപഭോക്തൃ ഹാർഡ്‌വെയറുകളിൽ (consumer hardware) അത്യാധുനിക AI മോഡലുകൾ പ്രവർത്തിപ്പിക്കാൻ കഴിയില്ലെന്ന് മിക്കവരും പറയുന്നു.

Qwen3-235B പോലുള്ള ഒരു മോഡൽ പ്രവർത്തിപ്പിക്കാൻ 470 GB RAM ആവശ്യമാണ്. ഒരു ഹൈ-എൻഡ് Mac Studio-യിൽ 192 GB മാത്രമേയുള്ളൂ. പകരം ഒരു ക്ലൗഡ് GPU വാടകയ്‌ക്കെടുക്കാൻ വ്യവസായം നിങ്ങളോട് നിർദ്ദേശിക്കുന്നു.

ഞാൻ ഒരു വെബ് ഡെവലപ്പർ ആണ്, സിസ്റ്റംസ് എഞ്ചിനീയർ അല്ല. ഞാൻ GPU കേർണലുകളിലോ (kernels) ലോ-ലെവൽ മെമ്മറിയിലോ ജോലി ചെയ്യുന്ന ആളല്ല. എന്നാൽ എനിക്കൊരു ചോദ്യമുണ്ടായിരുന്നു: മോഡലിൽ യഥാർത്ഥത്തിൽ പ്രവർത്തിക്കുന്ന ഭാഗങ്ങൾ മാത്രം ലോഡ് ചെയ്താൽ എന്ത് സംഭവിക്കും?

ഒരു Mixture of Experts (MoE) മോഡലിൽ, ഭൂരിഭാഗം പാരാമീറ്ററുകളും മിക്കപ്പോഴും പ്രവർത്തനരഹിതമായിരിക്കും. അവ ആവശ്യമുള്ളതിന് തൊട്ടുമുമ്പ് മാത്രം വെയ്റ്റുകൾ (weights) ലോഡ് ചെയ്യുന്ന ഒരു സിസ്റ്റം നിർമ്മിക്കാൻ ഞാൻ തീരുമാനിച്ചു.

C++ കോഡ് എഴുതാൻ എന്നെ സഹായിക്കാൻ ഞാൻ ഒരു AI ഏജന്റിനെ ഉപയോഗിച്ചു. കൗതുകം ഞാൻ നൽകിയപ്പോൾ, അതിന്റെ ആഴത്തിലുള്ള നടപ്പിലാക്കൽ (implementation depth) ഏജന്റ് നൽകി.

ഫിലിപ്പോ ബിയോണ്ടിയുടെ (Filippo Biondi) ഒരു സാറ്റലൈറ്റ് പേപ്പറിൽ നിന്നാണ് എനിക്ക് പ്രചോദനം ലഭിച്ചത്. ഗിസയിലെ മഹാ പിരമിഡിനുള്ളിലെ കാഴ്ചകൾ കാണാൻ അദ്ദേഹം റഡാർ ഉപയോഗിച്ചു. റഡാറിന് പാറയെ തുളച്ചുകയറാൻ കഴിയില്ല, എന്നാൽ പാറയിൽ തട്ടുമ്പോൾ ഉണ്ടാകുന്ന കമ്പനങ്ങൾ (vibrations) അളക്കാൻ അതിന് കഴിയും. പിരമിഡിന്റെ ഉൾഭാഗം മാപ്പ് ചെയ്യാൻ അദ്ദേഹം ആ കമ്പനങ്ങൾ അളന്നു.

ഞാൻ ഈ ലോജിക് AI മെമ്മറിയിൽ പ്രയോഗിച്ചു.

ഇതിനെ ഞാൻ S-MoE (Seismic Mixture of Experts) എന്ന് വിളിക്കുന്നു. ഇത് മൂന്ന് സ്ട്രീമുകൾ ഉപയോഗിച്ചാണ് പ്രവർത്തിക്കുന്നത്:

• ദി സ്കൗട്ട് (The Scout): RAM-ൽ പ്രവർത്തിക്കുന്ന മോഡലിന്റെ ഭാരം കുറഞ്ഞ ഒരു ഭാഗം. അടുത്തതായി ഏത് എക്സ്പെർട്ടുകൾ (experts) സജീവമാകുമെന്ന് ഇത് പ്രവചിക്കുന്നു. • ദി സ്ട്രീമർ (The Streamer): നിങ്ങളുടെ SSD-യിൽ നിന്ന് ആ പ്രത്യേക എക്സ്പെർട്ട് ബ്ലോക്കുകളെ മെമ്മറിയിലേക്ക് ലോഡ് ചെയ്യുന്ന ഒരു I/O ത്രെഡ്. • ദി GPU: ഇപ്പോൾ ലഭിച്ച വെയ്റ്റുകൾ ഉപയോഗിച്ച് ഗണിതക്രിയകൾ ചെയ്യുന്നു.

OS കാഷെ (cache) ഒഴിവാക്കാൻ ഈ സിസ്റ്റം Direct I/O ഉപയോഗിക്കുന്നു. ഇത് റൺടൈം ഹീപ്പ് അലോക്കേഷനുകൾ (runtime heap allocations) ഉപയോഗിക്കുന്നില്ല. കൂടാതെ എല്ലാ OS മ്യൂട്ടെക്സുകളും (mutexes) ഇത് ഒഴിവാക്കുന്നു.

ഫലം? ഒരു 16 GB Mac-ഉം 512 GB Mac-ഉം ഒരു 235B മോഡലിൽ നിന്ന് ഒരേ ബുദ്ധിശക്തി തന്നെ പുറപ്പെടുവിക്കും. ഒന്ന് മറ്റൊന്നിനേക്കാൾ വേഗതയുള്ളത് മാത്രമാണ് വ്യത്യാസം.

AI-ക്ക് ചുറ്റുമുള്ള മെമ്മറി പരിമിതികൾ (memory wall) ഒരു സോഫ്റ്റ്‌വെയർ അനുമാനമാണ്, പ്രകൃതി നിയമമല്ല. നിങ്ങളുടെ കൈവശമുള്ള ഹാർഡ്‌വെയറിൽ തന്നെ അത്യാധുനിക മോഡലുകൾ പ്രവർത്തിപ്പിക്കാൻ നിങ്ങൾക്ക് കഴിയും.

S-MoE ഓപ്പൺ സോഴ്സ് ആണ്.

Source: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

Optional learning community: https://t.me/GyaanSetuAi