റോക്ക്, പേപ്പർ, സിലിക്കൺ: ഒരു മാക്ബുക്കിൽ എങ്ങനെയാണ് ഞാൻ 235B AI മോഡൽ പ്രവർത്തിപ്പിച്ചത്

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialകഴിഞ്ഞ ആഴ്‌ച2min read

റോക്ക്, പേപ്പർ, സിലിക്കൺ: ഒരു മാക്ബുക്കിൽ എങ്ങനെയാണ് ഞാൻ 235B AI മോഡൽ പ്രവർത്തിപ്പിച്ചത്

Rock, Paper, Silicon: എങ്ങനെ ഞാൻ ഒരു MacBook-ൽ 235B AI മോഡൽ പ്രവർത്തിപ്പിച്ചു

സാധാരണ ഉപഭോക്തൃ ഹാർഡ്‌വെയറുകളിൽ (consumer hardware) അത്യാധുനിക AI മോഡലുകൾ പ്രവർത്തിപ്പിക്കാൻ കഴിയില്ലെന്ന് മിക്കവരും പറയുന്നു.

Qwen3-235B പോലുള്ള ഒരു മോഡൽ പ്രവർത്തിപ്പിക്കാൻ 470 GB RAM ആവശ്യമാണ്. ഒരു ഹൈ-എൻഡ് Mac Studio-യിൽ 192 GB മാത്രമേയുള്ളൂ. പകരം ഒരു ക്ലൗഡ് GPU വാടകയ്‌ക്കെടുക്കാൻ വ്യവസായം നിങ്ങളോട് നിർദ്ദേശിക്കുന്നു.

ഞാൻ ഒരു വെബ് ഡെവലപ്പർ ആണ്, സിസ്റ്റംസ് എഞ്ചിനീയർ അല്ല. ഞാൻ GPU കേർണലുകളിലോ (kernels) ലോ-ലെവൽ മെമ്മറിയിലോ ജോലി ചെയ്യുന്ന ആളല്ല. എന്നാൽ എനിക്കൊരു ചോദ്യമുണ്ടായിരുന്നു: മോഡലിൽ യഥാർത്ഥത്തിൽ പ്രവർത്തിക്കുന്ന ഭാഗങ്ങൾ മാത്രം ലോഡ് ചെയ്താൽ എന്ത് സംഭവിക്കും?

ഒരു Mixture of Experts (MoE) മോഡലിൽ, ഭൂരിഭാഗം പാരാമീറ്ററുകളും മിക്കപ്പോഴും പ്രവർത്തനരഹിതമായിരിക്കും. അവ ആവശ്യമുള്ളതിന് തൊട്ടുമുമ്പ് മാത്രം വെയ്റ്റുകൾ (weights) ലോഡ് ചെയ്യുന്ന ഒരു സിസ്റ്റം നിർമ്മിക്കാൻ ഞാൻ തീരുമാനിച്ചു.

C++ കോഡ് എഴുതാൻ എന്നെ സഹായിക്കാൻ ഞാൻ ഒരു AI ഏജന്റിനെ ഉപയോഗിച്ചു. കൗതുകം ഞാൻ നൽകിയപ്പോൾ, അതിന്റെ ആഴത്തിലുള്ള നടപ്പിലാക്കൽ (implementation depth) ഏജന്റ് നൽകി.

ഫിലിപ്പോ ബിയോണ്ടിയുടെ (Filippo Biondi) ഒരു സാറ്റലൈറ്റ് പേപ്പറിൽ നിന്നാണ് എനിക്ക് പ്രചോദനം ലഭിച്ചത്. ഗിസയിലെ മഹാ പിരമിഡിനുള്ളിലെ കാഴ്ചകൾ കാണാൻ അദ്ദേഹം റഡാർ ഉപയോഗിച്ചു. റഡാറിന് പാറയെ തുളച്ചുകയറാൻ കഴിയില്ല, എന്നാൽ പാറയിൽ തട്ടുമ്പോൾ ഉണ്ടാകുന്ന കമ്പനങ്ങൾ (vibrations) അളക്കാൻ അതിന് കഴിയും. പിരമിഡിന്റെ ഉൾഭാഗം മാപ്പ് ചെയ്യാൻ അദ്ദേഹം ആ കമ്പനങ്ങൾ അളന്നു.

ഞാൻ ഈ ലോജിക് AI മെമ്മറിയിൽ പ്രയോഗിച്ചു.

ഇതിനെ ഞാൻ S-MoE (Seismic Mixture of Experts) എന്ന് വിളിക്കുന്നു. ഇത് മൂന്ന് സ്ട്രീമുകൾ ഉപയോഗിച്ചാണ് പ്രവർത്തിക്കുന്നത്:

• ദി സ്കൗട്ട് (The Scout): RAM-ൽ പ്രവർത്തിക്കുന്ന മോഡലിന്റെ ഭാരം കുറഞ്ഞ ഒരു ഭാഗം. അടുത്തതായി ഏത് എക്സ്പെർട്ടുകൾ (experts) സജീവമാകുമെന്ന് ഇത് പ്രവചിക്കുന്നു. • ദി സ്ട്രീമർ (The Streamer): നിങ്ങളുടെ SSD-യിൽ നിന്ന് ആ പ്രത്യേക എക്സ്പെർട്ട് ബ്ലോക്കുകളെ മെമ്മറിയിലേക്ക് ലോഡ് ചെയ്യുന്ന ഒരു I/O ത്രെഡ്. • ദി GPU: ഇപ്പോൾ ലഭിച്ച വെയ്റ്റുകൾ ഉപയോഗിച്ച് ഗണിതക്രിയകൾ ചെയ്യുന്നു.

OS കാഷെ (cache) ഒഴിവാക്കാൻ ഈ സിസ്റ്റം Direct I/O ഉപയോഗിക്കുന്നു. ഇത് റൺടൈം ഹീപ്പ് അലോക്കേഷനുകൾ (runtime heap allocations) ഉപയോഗിക്കുന്നില്ല. കൂടാതെ എല്ലാ OS മ്യൂട്ടെക്സുകളും (mutexes) ഇത് ഒഴിവാക്കുന്നു.

ഫലം? ഒരു 16 GB Mac-ഉം 512 GB Mac-ഉം ഒരു 235B മോഡലിൽ നിന്ന് ഒരേ ബുദ്ധിശക്തി തന്നെ പുറപ്പെടുവിക്കും. ഒന്ന് മറ്റൊന്നിനേക്കാൾ വേഗതയുള്ളത് മാത്രമാണ് വ്യത്യാസം.

AI-ക്ക് ചുറ്റുമുള്ള മെമ്മറി പരിമിതികൾ (memory wall) ഒരു സോഫ്റ്റ്‌വെയർ അനുമാനമാണ്, പ്രകൃതി നിയമമല്ല. നിങ്ങളുടെ കൈവശമുള്ള ഹാർഡ്‌വെയറിൽ തന്നെ അത്യാധുനിക മോഡലുകൾ പ്രവർത്തിപ്പിക്കാൻ നിങ്ങൾക്ക് കഴിയും.

S-MoE ഓപ്പൺ സോഴ്സ് ആണ്.

Source: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

Optional learning community: https://t.me/GyaanSetuAi

റോക്ക്, പേപ്പർ, സിലിക്കൺ: ഒരു മാക്ബുക്കിൽ എങ്ങനെയാണ് ഞാൻ 235B AI മോഡൽ പ്രവർത്തിപ്പിച്ചത്

Continue reading

𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨

നിങ്ങളുടെ ഡെസ്ക്ടോപ്പിൽ GLM 5.2 ലോക്കലായി റൺ ചെയ്യാം

ലോക്കൽ AI: ഓപ്പൺ സോഴ്സ് മോഡലുകൾ എങ്ങനെ ലോക്കലായി പ്രവർത്തിപ്പിക്കാം

എന്റെ ASUS ROG Ally-യിൽ ഞാൻ ഒരു LLM ലോക്കലായി പ്രവർത്തിപ്പിച്ചു

Qwen 3.6 27B: ലോക്കൽ AI-യെക്കുറിച്ചുള്ള എഞ്ചിനീയർമാർക്കുള്ള ഗൈഡ്