2008 Xeon पर 32B LLM: VRAM से ज़्यादा RAM मायने रखती है
मैंने अपने वर्क लैपटॉप पर 20 GB का मॉडल चलाने की कोशिश की। लैपटॉप में RTX 4070 और 16 GB RAM है। यह विफल रहा। सिस्टम पूरी तरह से फ्रीज़ हो गया।
इसके बजाय, मैंने एक पुराने 2008 सर्वर का परीक्षण करने का निर्णय लिया। सर्वर में दो Intel Xeon E5440 CPU और 64 GB RAM है। इसमें कोई GPU नहीं है।
लक्ष्य सरल था। क्या पर्याप्त मेमोरी वाला पुराना हार्डवेयर उस बड़े मॉडल को चला सकता है जिसे मेरा लैपटॉप नहीं चला सकता?
हार्डवेयर की तुलना यहाँ दी गई है:
Laptop:
- CPU: आधुनिक नोटबुक
- RAM: 16 GB
- GPU: 8 GB VRAM
- परिणाम: सिस्टम फ्रीज़ हो गया
Server:
- CPU: 2x Xeon E5440
- RAM: 64 GB
- GPU: कोई नहीं
- परिणाम: यह चलता है
सर्वर धीमा है। यह लगभग 0.01 टोकन प्रति सेकंड जनरेट करता है। मैंने परीक्षण आधी रात को शुरू किया और सुबह इसे चेक किया।
मॉडल ने Forth भाषा में कोड लिखने की कोशिश की। कई घंटों के बाद इसने दो अलग-अलग वर्ज़न तैयार किए। दोनों वर्ज़न चलाने में विफल रहे।
मैंने इससे दो बातें सीखीं:
RAM की मात्रा मायने रखती है। 64 GB सिस्टम RAM आपको उन मॉडल्स को चलाने की अनुमति देती है जिन्हें VRAM और RAM का कुल 24 GB नहीं चला सकता। हालाँकि, काम के लिए 0.01 टोकन प्रति सेकंड व्यावहारिक नहीं है।
बड़े मॉडल कोई जादू नहीं हैं। यदि किसी बड़े मॉडल को Forth जैसी किसी विशिष्ट (niche) भाषा पर प्रशिक्षित नहीं किया गया है, तो वह उसमें प्रोग्रामिंग नहीं कर सकता। काम करने वाला कोड प्राप्त करने के लिए, आपको एक बेहतर प्रक्रिया की आवश्यकता है। आपको एल्गोरिदम, डिटरमिनिस्टिक ट्रांसपाइलर (deterministic transpilers) और बेहतर टूल्स की आवश्यकता है।
किसी विचार का परीक्षण करने के लिए महंगा हार्डवेयर न खरीदें। पहले अपने पास मौजूद संसाधनों पर ही अपने प्रयोग चलाएँ। धीमा इन्फरेंस (inference) भी इन्फरेंस ही है। इसने मुझे बिना किसी भारी खर्च के वह उत्तर दे दिया जिसकी मुझे आवश्यकता थी।
Source: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2
Optional learning community: https://t.me/GyaanSetuAi