AI ट्रेनिंग के लिए GPUs, CPUs से बेहतर क्यों हैं

आप AI के लिए बस एक बड़ा CPU क्यों नहीं बना सकते?

यह एक आम सवाल है। ज्यादातर लोग सोचते हैं कि GPUs इसलिए जीतते हैं क्योंकि वे तेज़ होते हैं। असली कारण डिज़ाइन से जुड़ा है। CPUs और GPUs अलग-अलग समस्याओं का समाधान करते हैं।

AI ट्रेनिंग मुख्य रूप से matrix multiplication है। आप अरबों गणितीय गणनाएँ करते हैं जो एक-दूसरे पर निर्भर नहीं होती हैं। इसे parallel work कहा जाता है।

एक CPU को जटिल और अप्रत्याशित कार्यों के लिए बनाया गया है। यह सिलिकॉन का उपयोग करता है:

ये फीचर्स एक CPU को वेब रिक्वेस्ट या डेटाबेस क्वेरी संभालने में मदद करते हैं। लेकिन AI के लिए, ये फीचर्स बेकार हैं। दो नंबरों को एक अरब बार गुणा करने के लिए आपको किसी स्मार्ट कोर की आवश्यकता नहीं है।

एक GPU अलग रास्ता अपनाता है। यह जटिल मशीनरी को हटा देता है। कुछ स्मार्ट कोर के बजाय, यह हजारों सरल कोर का उपयोग करता है।

हार्डवेयर का अंतर बहुत बड़ा है:

पावर एफिशिएंसी (power efficiency) भी अलग होती है। एक Xeon कोर लगभग 1.5W का उपयोग करता है। एक B300 कोर लगभग 0.07W का उपयोग करता है। आप उस CPU इंटेलिजेंस के लिए भारी पावर टैक्स देते हैं जिसका AI ट्रेनिंग में कभी उपयोग नहीं होता।

मेमोरी बैंडविड्थ (Memory bandwidth) भी मायने रखती है।

यदि हजारों कोर डेटा का इंतज़ार करते हुए खाली बैठे रहें, तो वे बेकार हैं। GPUs कई कोर को विशाल मेमोरी स्पीड के साथ जोड़ते हैं ताकि वे एक साथ काम कर सकें।

यदि आप एक चिप पर 20,000 CPU कोर लगाने की कोशिश करेंगे, तो आप तुरंत पावर और हीट की सीमा (wall) से टकरा जाएंगे। आप उन "स्मार्ट" फीचर्स के लिए भी भुगतान कर रहे होंगे जिनकी आपको आवश्यकता नहीं है।

इसे इस तरह से सोचें:

आधुनिक AI दोनों के साथ सबसे अच्छा काम करता है। CPU कार्यों को प्रबंधित करने के लिए मस्तिष्क के रूप में कार्य करता है। GPU भारी गणित करने के लिए मांसपेशियों (muscle) के रूप में कार्य करता है।

Source: https://dev.to/ambarish_0221/why-gpus-beat-cpus-for-ai-training-and-why-you-cant-just-build-a-bigger-cpu-3dff

Optional learning community: https://t.me/GyaanSetuAi