பாறை, காகிதம், சிலிக்கான்: ஒரு MacBook-இல் 235B AI மாடலை நான் எப்படி இயக்கினேன்

நுகர்வோர் வன்பொருள்களில் (consumer hardware) அதிநவீன AI மாடல்களை இயக்க முடியாது என்று பெரும்பாலான மக்கள் கூறுகிறார்கள்.

Qwen3-235B போன்ற ஒரு மாடலை இயக்க, உங்களுக்கு 470 GB RAM தேவைப்படும். ஒரு உயர்தர Mac Studio-வில் வெறும் 192 GB மட்டுமே உள்ளது. அதற்குப் பதிலாக ஒரு கிளவுட் GPU-வை (cloud GPU) வாடகைக்கு எடுக்க வேண்டும் என்று தொழில்துறை பரிந்துரைக்கிறது.

நான் ஒரு இணைய மேம்பாட்டாளர் (web developer), சிஸ்டம்ஸ் இன்ஜினியர் அல்ல. நான் GPU kernels அல்லது குறைந்த நிலை நினைவகத்துடன் (low-level memory) வேலை செய்பவன் அல்ல. ஆனால் எனக்கு ஒரு கேள்வி இருந்தது: மாடலில் உண்மையில் செயல்படும் பகுதிகளை மட்டும் ஏற்றினால் என்னவாகும்?

ஒரு Mixture of Experts (MoE) மாடலில், பெரும்பாலான அளவுருக்கள் (parameters) பெரும்பாலான நேரங்களில் செயல்படாமல் இருக்கும். தேவைப்படும் தருணத்திற்குச் சரியாக அந்த எடைகளை (weights) ஏற்றும் ஒரு அமைப்பை உருவாக்க நான் முடிவு செய்தேன்.

C++ குறியீட்டை எழுத எனக்கு உதவ ஒரு AI ஏஜென்ட்டைப் பயன்படுத்தினேன். நான் ஆர்வத்தைக் கொண்டு வந்தேன், அந்த ஏஜென்ட் அதன் செயல்பாட்டு ஆழத்தைக் கொண்டு வந்தது.

ஃபிளிப்போ பயோண்டி (Filippo Biondi) எழுதிய ஒரு செயற்கைக்கோள் ஆய்வுக் கட்டுரையில் இருந்து எனக்குத் தூண்டுதல் கிடைத்தது. கிசாவின் மகா பிரமிடுக்குள் (Great Pyramid of Giza) பார்ப்பதற்கு அவர் ரேடாரைப் பயன்படுத்தினார். ரேடாரால் பாறையை ஊடுருவ முடியாது, ஆனால் பாறையைத் தாக்கும்போது ஏற்படும் அதிர்வுகளை அதனால் அளவிட முடியும். அந்த அதிர்வுகளை அளவிடுவதன் மூலம் அவர் உட்பகுதியை வரைபடமாக்கினார்.

இந்த தர்க்கத்தை நான் AI நினைவகத்திற்குப் பயன்படுத்தினேன்.

இதை நான் S-MoE (Seismic Mixture of Experts) என்று அழைக்கிறேன். இது மூன்று ஓட்டங்களைக் (streams) கொண்டு செயல்படுகிறது:

• தி ஸ்கவுட் (The Scout): RAM-இல் இயங்கும் மாடலின் ஒரு இலகுரகப் பகுதி. அடுத்ததாக எந்த நிபுணர்கள் (experts) செயல்படுவார்கள் என்பதை இது கணிக்கும். • தி ஸ்ட்ரீமர் (The Streamer): உங்கள் SSD-யிலிருந்து அந்த குறிப்பிட்ட நிபுணர் தொகுப்புகளை (expert blocks) நினைவகத்திற்கு ஏற்றும் ஒரு I/O த்ரெட் (thread). • தி GPU: இப்போது வந்த எடைகளைப் பயன்படுத்தி கணிதச் செயல்பாடுகளைச் செய்கிறது.

இந்த அமைப்பு OS கேச்-ஐத் (OS cache) தவிர்க்க Direct I/O-வைப் பயன்படுத்துகிறது. இது ரன்டைம் ஹீப் ஒதுக்கீடுகளை (runtime heap allocations) பயன்படுத்துவதில்லை. மேலும் இது அனைத்து OS மியூடெக்ஸ்களையும் (OS mutexes) தவிர்க்கிறது.

இதன் முடிவு? ஒரு 16 GB Mac மற்றும் ஒரு 512 GB Mac ஆகிய இரண்டும் 235B மாடலில் இருந்து துல்லியமாக ஒரே மாதிரியான அறிவைத் தரும். ஒன்று மற்றொன்றை விட வேகமாக மட்டுமே இருக்கும்.

AI-ஐச் சுற்றியுள்ள நினைவகத் தடை (memory wall) என்பது ஒரு மென்பொருள் சார்ந்த அனுமானம் மட்டுமே, அது இயற்கையின் விதி அல்ல. உங்களிடம் ஏற்கனவே உள்ள வன்பொருளிலேயே அதிநவீன மாடல்களை இயக்க முடியும்.

S-MoE என்பது ஓப்பன் சோர்ஸ் (open source) ஆகும்.

ஆதாரம்: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi