𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗩𝗥𝗔𝗠 కంటే 𝗥𝗔𝗠 ముఖ్యం

నేను నా వర్క్ లాప్‌టాప్‌లో 20 GB మోడల్‌ను రన్ చేయడానికి ప్రయత్నించాను. ఆ లాప్‌టాప్‌లో RTX 4070 మరియు 16 GB RAM ఉన్నాయి. అది విఫలమైంది. సిస్టమ్ పూర్తిగా ఫ్రీజ్ అయిపోయింది.

దానికి బదులుగా ఒక పాత 2008 సర్వర్‌ను పరీక్షించాలని నిర్ణయించుకున్నాను. ఆ సర్వర్‌లో రెండు Intel Xeon E5440 CPUలు మరియు 64 GB RAM ఉన్నాయి. అందులో GPU లేదు.

లక్ష్యం చాలా సరళమైనది. తగినంత మెమరీ ఉన్న పాత హార్డ్‌వేర్, నా లాప్‌టాప్ రన్ చేయలేని పెద్ద మోడల్‌ను రన్ చేయగలదా?

హార్డ్‌వేర్ పోలిక ఇక్కడ ఉంది:

Laptop:

Server:

సర్వర్ నెమ్మదిగా ఉంది. ఇది సెకనుకు సుమారు 0.01 టోకెన్లను జనరేట్ చేస్తుంది. నేను అర్ధరాత్రి పరీక్షను ప్రారంభించి, ఉదయం దానిని తనిఖీ చేశాను.

మోడల్ Forth భాషలో కోడ్ రాయడానికి ప్రయత్నించింది. కొన్ని గంటల తర్వాత అది రెండు వేర్వేరు వెర్షన్లను అందించింది. ఆ రెండు వెర్షన్లు కూడా రన్ కావడంలో విఫలమయ్యాయి.

దీని నుండి నేను రెండు విషయాలు నేర్చుకున్నాను:

  1. RAM పరిమాణం ముఖ్యం. 24 GB కలిపి ఉన్న VRAM మరియు RAM తో రన్ చేయలేని మోడళ్లను, 64 GB సిస్టమ్ RAM ద్వారా రన్ చేయవచ్చు. అయితే, సెకనుకు 0.01 టోకెన్లు అనేది పని కోసం ఆచరణాత్మకం కాదు.

  2. పెద్ద మోడళ్లు మ్యాజిక్ కాదు. ఒక మోడల్‌కు Forth వంటి ప్రత్యేకమైన (niche) భాషపై శిక్షణ లేకపోతే, అది ఆ భాషలో ప్రోగ్రామ్ చేయలేదు. పని చేసే కోడ్ పొందడానికి, మీకు మెరుగైన ప్రక్రియ అవసరం. మీకు అల్గారిథమ్‌లు, డిటర్మినిస్టిక్ ట్రాన్స్‌పైలర్లు (deterministic transpilers) మరియు మెరుగైన సాధనాలు అవసరం.

ఒక ఆలోచనను పరీక్షించడానికి ఖరీదైన హార్డ్‌వేర్‌ను కొనకండి. మొదట మీ వద్ద ఉన్న దానితోనే మీ ప్రయోగాలను చేయండి. నెమ్మదైన ఇన్ఫరెన్స్ (inference) కూడా ఇన్ఫరెన్స్ కిందకే వస్తుంది. భారీ ఖర్చు లేకుండా నాకు కావాల్సిన సమాధానాన్ని ఇది ఇచ్చింది.

Source: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

Optional learning community: https://t.me/GyaanSetuAi