𝗖𝗼𝗿𝗲𝗪𝗲𝗮𝘃𝗲 𝗦𝗲𝘁𝘀 𝗡𝗲𝘄 𝗥𝗲𝗰𝗼𝗿𝗱 𝗪𝗶𝘁𝗵 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸-𝗩𝟯
CoreWeave ने DeepSeek-V3 को मात्र 2 मिनट में ट्रेन किया।
यह परिणाम एक नया MLPerf v6.0 रिकॉर्ड स्थापित करता है। यह पिछले AWS रिकॉर्ड को 43 प्रतिशत से पीछे छोड़ देता है। AWS को इसी कार्य को पूरा करने में 3.5 मिनट लगे थे।
उन्होंने यह कैसे किया:
- 11,000 से अधिक NVIDIA H100 GPUs का उपयोग किया।
- वर्कलोड को 4 डेटा सेंटरों में फैलाया।
- कंप्यूट को मैनेज करने के लिए एक कस्टम ऑर्केस्ट्रेशन लेयर का उपयोग किया।
CoreWeave ने रैक स्केल पर Nvidia Vera Rubin NVL72 को भी वैलिडेट किया। इसके साथ ही वे ऐसा करने वाले पहले क्लाउड प्रोवाइडर बन गए हैं।
AI के लिए यह क्यों महत्वपूर्ण है:
- जब आप विभिन्न साइटों पर हजारों GPUs का उपयोग करते हैं, तो ट्रेनिंग की लागत कम हो जाती है।
- AI वर्कलोड के लिए स्पेशलाइज्ड इंफ्रास्ट्रक्चर, जनरल क्लाउड सेवाओं से बेहतर प्रदर्शन करता है।
- DeepSeek-V3, GPT-4 की लागत के एक छोटे से हिस्से में उच्च प्रदर्शन दिखाता है।
CoreWeave अब इस क्षमता का विस्तार करने के लिए टेक्सास में 1.2 GW का डेटा सेंटर कैंपस बना रहा है।
देखें कि AWS और Google Cloud जैसे बड़े खिलाड़ी इन स्पीड्स पर कैसी प्रतिक्रिया देते हैं।
स्रोत: https://dev.to/gentic_news/coreweave-trains-deepseek-v3-in-2-minutes-claims-mlperf-v60-record-3dp4
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi