பாறை, காகிதம், சிலிக்கான்: ஒரு MacBook-இல் 235B AI மாடலை நான் எப்படி இயக்கினேன்

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialகடந்த வாரம்2min read

பாறை, காகிதம், சிலிக்கான்: ஒரு MacBook-இல் 235B AI மாடலை நான் எப்படி இயக்கினேன்

நுகர்வோர் வன்பொருள்களில் (consumer hardware) அதிநவீன AI மாடல்களை இயக்க முடியாது என்று பெரும்பாலான மக்கள் கூறுகிறார்கள்.

Qwen3-235B போன்ற ஒரு மாடலை இயக்க, உங்களுக்கு 470 GB RAM தேவைப்படும். ஒரு உயர்தர Mac Studio-வில் வெறும் 192 GB மட்டுமே உள்ளது. அதற்குப் பதிலாக ஒரு கிளவுட் GPU-வை (cloud GPU) வாடகைக்கு எடுக்க வேண்டும் என்று தொழில்துறை பரிந்துரைக்கிறது.

நான் ஒரு இணைய மேம்பாட்டாளர் (web developer), சிஸ்டம்ஸ் இன்ஜினியர் அல்ல. நான் GPU kernels அல்லது குறைந்த நிலை நினைவகத்துடன் (low-level memory) வேலை செய்பவன் அல்ல. ஆனால் எனக்கு ஒரு கேள்வி இருந்தது: மாடலில் உண்மையில் செயல்படும் பகுதிகளை மட்டும் ஏற்றினால் என்னவாகும்?

ஒரு Mixture of Experts (MoE) மாடலில், பெரும்பாலான அளவுருக்கள் (parameters) பெரும்பாலான நேரங்களில் செயல்படாமல் இருக்கும். தேவைப்படும் தருணத்திற்குச் சரியாக அந்த எடைகளை (weights) ஏற்றும் ஒரு அமைப்பை உருவாக்க நான் முடிவு செய்தேன்.

C++ குறியீட்டை எழுத எனக்கு உதவ ஒரு AI ஏஜென்ட்டைப் பயன்படுத்தினேன். நான் ஆர்வத்தைக் கொண்டு வந்தேன், அந்த ஏஜென்ட் அதன் செயல்பாட்டு ஆழத்தைக் கொண்டு வந்தது.

ஃபிளிப்போ பயோண்டி (Filippo Biondi) எழுதிய ஒரு செயற்கைக்கோள் ஆய்வுக் கட்டுரையில் இருந்து எனக்குத் தூண்டுதல் கிடைத்தது. கிசாவின் மகா பிரமிடுக்குள் (Great Pyramid of Giza) பார்ப்பதற்கு அவர் ரேடாரைப் பயன்படுத்தினார். ரேடாரால் பாறையை ஊடுருவ முடியாது, ஆனால் பாறையைத் தாக்கும்போது ஏற்படும் அதிர்வுகளை அதனால் அளவிட முடியும். அந்த அதிர்வுகளை அளவிடுவதன் மூலம் அவர் உட்பகுதியை வரைபடமாக்கினார்.

இந்த தர்க்கத்தை நான் AI நினைவகத்திற்குப் பயன்படுத்தினேன்.

இதை நான் S-MoE (Seismic Mixture of Experts) என்று அழைக்கிறேன். இது மூன்று ஓட்டங்களைக் (streams) கொண்டு செயல்படுகிறது:

• தி ஸ்கவுட் (The Scout): RAM-இல் இயங்கும் மாடலின் ஒரு இலகுரகப் பகுதி. அடுத்ததாக எந்த நிபுணர்கள் (experts) செயல்படுவார்கள் என்பதை இது கணிக்கும். • தி ஸ்ட்ரீமர் (The Streamer): உங்கள் SSD-யிலிருந்து அந்த குறிப்பிட்ட நிபுணர் தொகுப்புகளை (expert blocks) நினைவகத்திற்கு ஏற்றும் ஒரு I/O த்ரெட் (thread). • தி GPU: இப்போது வந்த எடைகளைப் பயன்படுத்தி கணிதச் செயல்பாடுகளைச் செய்கிறது.

இந்த அமைப்பு OS கேச்-ஐத் (OS cache) தவிர்க்க Direct I/O-வைப் பயன்படுத்துகிறது. இது ரன்டைம் ஹீப் ஒதுக்கீடுகளை (runtime heap allocations) பயன்படுத்துவதில்லை. மேலும் இது அனைத்து OS மியூடெக்ஸ்களையும் (OS mutexes) தவிர்க்கிறது.

இதன் முடிவு? ஒரு 16 GB Mac மற்றும் ஒரு 512 GB Mac ஆகிய இரண்டும் 235B மாடலில் இருந்து துல்லியமாக ஒரே மாதிரியான அறிவைத் தரும். ஒன்று மற்றொன்றை விட வேகமாக மட்டுமே இருக்கும்.

AI-ஐச் சுற்றியுள்ள நினைவகத் தடை (memory wall) என்பது ஒரு மென்பொருள் சார்ந்த அனுமானம் மட்டுமே, அது இயற்கையின் விதி அல்ல. உங்களிடம் ஏற்கனவே உள்ள வன்பொருளிலேயே அதிநவீன மாடல்களை இயக்க முடியும்.

S-MoE என்பது ஓப்பன் சோர்ஸ் (open source) ஆகும்.

ஆதாரம்: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi

பாறை, காகிதம், சிலிக்கான்: ஒரு MacBook-இல் 235B AI மாடலை நான் எப்படி இயக்கினேன்

Continue reading

RAM தான் புதிய GPU

உங்கள் டெஸ்க்டாப்பிலேயே GLM 5.2-ஐ இயக்கவும்

Local AI: How to Run Open Source Models Locally

I Ran an LLM Locally on my ASUS ROG Ally

Qwen 3.6 27B: உள்ளூர் AI பற்றிய பொறியாளருக்கான வழிகாட்டி