2008 Xeon మీద 32B LLM: VRAM కంటే RAM ముఖ్యం

📅3 hours ago⏱1 min read

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗩𝗥𝗔𝗠 కంటే 𝗥𝗔𝗠 ముఖ్యం

నేను నా వర్క్ లాప్‌టాప్‌లో 20 GB మోడల్‌ను రన్ చేయడానికి ప్రయత్నించాను. ఆ లాప్‌టాప్‌లో RTX 4070 మరియు 16 GB RAM ఉన్నాయి. అది విఫలమైంది. సిస్టమ్ పూర్తిగా ఫ్రీజ్ అయిపోయింది.

దానికి బదులుగా ఒక పాత 2008 సర్వర్‌ను పరీక్షించాలని నిర్ణయించుకున్నాను. ఆ సర్వర్‌లో రెండు Intel Xeon E5440 CPUలు మరియు 64 GB RAM ఉన్నాయి. అందులో GPU లేదు.

లక్ష్యం చాలా సరళమైనది. తగినంత మెమరీ ఉన్న పాత హార్డ్‌వేర్, నా లాప్‌టాప్ రన్ చేయలేని పెద్ద మోడల్‌ను రన్ చేయగలదా?

హార్డ్‌వేర్ పోలిక ఇక్కడ ఉంది:

Laptop:

CPU: Modern notebook
RAM: 16 GB
GPU: 8 GB VRAM
Result: System freeze

Server:

CPU: 2x Xeon E5440
RAM: 64 GB
GPU: None
Result: It runs

సర్వర్ నెమ్మదిగా ఉంది. ఇది సెకనుకు సుమారు 0.01 టోకెన్లను జనరేట్ చేస్తుంది. నేను అర్ధరాత్రి పరీక్షను ప్రారంభించి, ఉదయం దానిని తనిఖీ చేశాను.

మోడల్ Forth భాషలో కోడ్ రాయడానికి ప్రయత్నించింది. కొన్ని గంటల తర్వాత అది రెండు వేర్వేరు వెర్షన్లను అందించింది. ఆ రెండు వెర్షన్లు కూడా రన్ కావడంలో విఫలమయ్యాయి.

దీని నుండి నేను రెండు విషయాలు నేర్చుకున్నాను:

RAM పరిమాణం ముఖ్యం. 24 GB కలిపి ఉన్న VRAM మరియు RAM తో రన్ చేయలేని మోడళ్లను, 64 GB సిస్టమ్ RAM ద్వారా రన్ చేయవచ్చు. అయితే, సెకనుకు 0.01 టోకెన్లు అనేది పని కోసం ఆచరణాత్మకం కాదు.
పెద్ద మోడళ్లు మ్యాజిక్ కాదు. ఒక మోడల్‌కు Forth వంటి ప్రత్యేకమైన (niche) భాషపై శిక్షణ లేకపోతే, అది ఆ భాషలో ప్రోగ్రామ్ చేయలేదు. పని చేసే కోడ్ పొందడానికి, మీకు మెరుగైన ప్రక్రియ అవసరం. మీకు అల్గారిథమ్‌లు, డిటర్మినిస్టిక్ ట్రాన్స్‌పైలర్లు (deterministic transpilers) మరియు మెరుగైన సాధనాలు అవసరం.

ఒక ఆలోచనను పరీక్షించడానికి ఖరీదైన హార్డ్‌వేర్‌ను కొనకండి. మొదట మీ వద్ద ఉన్న దానితోనే మీ ప్రయోగాలను చేయండి. నెమ్మదైన ఇన్ఫరెన్స్ (inference) కూడా ఇన్ఫరెన్స్ కిందకే వస్తుంది. భారీ ఖర్చు లేకుండా నాకు కావాల్సిన సమాధానాన్ని ఇది ఇచ్చింది.

Source: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

Optional learning community: https://t.me/GyaanSetuAi

2008 Xeon మీద 32B LLM: VRAM కంటే RAM ముఖ్యం

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗧𝗼𝘄𝗮𝗿𝗱𝘀 𝗘𝗳𝗳𝗶𝗰𝗶𝗲𝗻𝘁 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗶𝗻𝗴

𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨

ఒకే GPUపై రెండు మోడళ్లను నడపడం: లోకల్ LLMల వెనుక ఉన్న గణితం