𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗩𝗥𝗔𝗠 కంటే 𝗥𝗔𝗠 ముఖ్యం
నేను నా వర్క్ లాప్టాప్లో 20 GB మోడల్ను రన్ చేయడానికి ప్రయత్నించాను. ఆ లాప్టాప్లో RTX 4070 మరియు 16 GB RAM ఉన్నాయి. అది విఫలమైంది. సిస్టమ్ పూర్తిగా ఫ్రీజ్ అయిపోయింది.
దానికి బదులుగా ఒక పాత 2008 సర్వర్ను పరీక్షించాలని నిర్ణయించుకున్నాను. ఆ సర్వర్లో రెండు Intel Xeon E5440 CPUలు మరియు 64 GB RAM ఉన్నాయి. అందులో GPU లేదు.
లక్ష్యం చాలా సరళమైనది. తగినంత మెమరీ ఉన్న పాత హార్డ్వేర్, నా లాప్టాప్ రన్ చేయలేని పెద్ద మోడల్ను రన్ చేయగలదా?
హార్డ్వేర్ పోలిక ఇక్కడ ఉంది:
Laptop:
- CPU: Modern notebook
- RAM: 16 GB
- GPU: 8 GB VRAM
- Result: System freeze
Server:
- CPU: 2x Xeon E5440
- RAM: 64 GB
- GPU: None
- Result: It runs
సర్వర్ నెమ్మదిగా ఉంది. ఇది సెకనుకు సుమారు 0.01 టోకెన్లను జనరేట్ చేస్తుంది. నేను అర్ధరాత్రి పరీక్షను ప్రారంభించి, ఉదయం దానిని తనిఖీ చేశాను.
మోడల్ Forth భాషలో కోడ్ రాయడానికి ప్రయత్నించింది. కొన్ని గంటల తర్వాత అది రెండు వేర్వేరు వెర్షన్లను అందించింది. ఆ రెండు వెర్షన్లు కూడా రన్ కావడంలో విఫలమయ్యాయి.
దీని నుండి నేను రెండు విషయాలు నేర్చుకున్నాను:
RAM పరిమాణం ముఖ్యం. 24 GB కలిపి ఉన్న VRAM మరియు RAM తో రన్ చేయలేని మోడళ్లను, 64 GB సిస్టమ్ RAM ద్వారా రన్ చేయవచ్చు. అయితే, సెకనుకు 0.01 టోకెన్లు అనేది పని కోసం ఆచరణాత్మకం కాదు.
పెద్ద మోడళ్లు మ్యాజిక్ కాదు. ఒక మోడల్కు Forth వంటి ప్రత్యేకమైన (niche) భాషపై శిక్షణ లేకపోతే, అది ఆ భాషలో ప్రోగ్రామ్ చేయలేదు. పని చేసే కోడ్ పొందడానికి, మీకు మెరుగైన ప్రక్రియ అవసరం. మీకు అల్గారిథమ్లు, డిటర్మినిస్టిక్ ట్రాన్స్పైలర్లు (deterministic transpilers) మరియు మెరుగైన సాధనాలు అవసరం.
ఒక ఆలోచనను పరీక్షించడానికి ఖరీదైన హార్డ్వేర్ను కొనకండి. మొదట మీ వద్ద ఉన్న దానితోనే మీ ప్రయోగాలను చేయండి. నెమ్మదైన ఇన్ఫరెన్స్ (inference) కూడా ఇన్ఫరెన్స్ కిందకే వస్తుంది. భారీ ఖర్చు లేకుండా నాకు కావాల్సిన సమాధానాన్ని ఇది ఇచ్చింది.
Source: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2
Optional learning community: https://t.me/GyaanSetuAi