2008 Xeon पर 32B LLM: VRAM से ज़्यादा RAM मायने रखती है

📅3 hours ago⏱1 min read

मैंने अपने वर्क लैपटॉप पर 20 GB का मॉडल चलाने की कोशिश की। लैपटॉप में RTX 4070 और 16 GB RAM है। यह विफल रहा। सिस्टम पूरी तरह से फ्रीज़ हो गया।

इसके बजाय, मैंने एक पुराने 2008 सर्वर का परीक्षण करने का निर्णय लिया। सर्वर में दो Intel Xeon E5440 CPU और 64 GB RAM है। इसमें कोई GPU नहीं है।

लक्ष्य सरल था। क्या पर्याप्त मेमोरी वाला पुराना हार्डवेयर उस बड़े मॉडल को चला सकता है जिसे मेरा लैपटॉप नहीं चला सकता?

हार्डवेयर की तुलना यहाँ दी गई है:

Laptop:

CPU: आधुनिक नोटबुक
RAM: 16 GB
GPU: 8 GB VRAM
परिणाम: सिस्टम फ्रीज़ हो गया

Server:

CPU: 2x Xeon E5440
RAM: 64 GB
GPU: कोई नहीं
परिणाम: यह चलता है

सर्वर धीमा है। यह लगभग 0.01 टोकन प्रति सेकंड जनरेट करता है। मैंने परीक्षण आधी रात को शुरू किया और सुबह इसे चेक किया।

मॉडल ने Forth भाषा में कोड लिखने की कोशिश की। कई घंटों के बाद इसने दो अलग-अलग वर्ज़न तैयार किए। दोनों वर्ज़न चलाने में विफल रहे।

मैंने इससे दो बातें सीखीं:

RAM की मात्रा मायने रखती है। 64 GB सिस्टम RAM आपको उन मॉडल्स को चलाने की अनुमति देती है जिन्हें VRAM और RAM का कुल 24 GB नहीं चला सकता। हालाँकि, काम के लिए 0.01 टोकन प्रति सेकंड व्यावहारिक नहीं है।
बड़े मॉडल कोई जादू नहीं हैं। यदि किसी बड़े मॉडल को Forth जैसी किसी विशिष्ट (niche) भाषा पर प्रशिक्षित नहीं किया गया है, तो वह उसमें प्रोग्रामिंग नहीं कर सकता। काम करने वाला कोड प्राप्त करने के लिए, आपको एक बेहतर प्रक्रिया की आवश्यकता है। आपको एल्गोरिदम, डिटरमिनिस्टिक ट्रांसपाइलर (deterministic transpilers) और बेहतर टूल्स की आवश्यकता है।

किसी विचार का परीक्षण करने के लिए महंगा हार्डवेयर न खरीदें। पहले अपने पास मौजूद संसाधनों पर ही अपने प्रयोग चलाएँ। धीमा इन्फरेंस (inference) भी इन्फरेंस ही है। इसने मुझे बिना किसी भारी खर्च के वह उत्तर दे दिया जिसकी मुझे आवश्यकता थी।

Source: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

Optional learning community: https://t.me/GyaanSetuAi

2008 Xeon पर 32B LLM: VRAM से ज़्यादा RAM मायने रखती है

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗧𝗼𝘄𝗮𝗿𝗱𝘀 𝗘𝗳𝗳𝗶𝗰𝗶𝗲𝗻𝘁 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗶𝗻𝗴

𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀