CoreWeave สร้างสถิติใหม่ด้วย DeepSeek-V3
CoreWeave ฝึกฝน DeepSeek-V3 เสร็จสิ้นภายในเวลาเพียง 2 นาที
ผลลัพธ์นี้เป็นการสร้างสถิติใหม่ของ MLPerf v6.0 โดยเอาชนะสถิติเดิมของ AWS ได้ถึง 43 เปอร์เซ็นต์ ซึ่ง AWS ต้องใช้เวลาถึง 3.5 นาทีในการทำงานแบบเดียวกันนี้
พวกเขาทำได้อย่างไร:
- ใช้ NVIDIA H100 GPUs มากกว่า 11,000 ตัว
- กระจายเวิร์กโหลด (workload) ไปยังดาต้าเซ็นเตอร์ 4 แห่ง
- ใช้เลเยอร์การจัดการ (orchestration layer) แบบปรับแต่งเองเพื่อบริหารจัดการการประมวลผล (compute)
CoreWeave ยังได้ทำการทดสอบประสิทธิภาพ (validate) ของ Nvidia Vera Rubin NVL72 ในระดับแร็ค (rack scale) ซึ่งทำให้พวกเขากลายเป็นผู้ให้บริการคลาวด์รายแรกที่ทำได้สำเร็จ
ทำไมเรื่องนี้ถึงสำคัญต่อ AI:
- ต้นทุนการฝึกฝนลดลงเมื่อมีการใช้ GPU หลายพันตัวกระจายอยู่ตามไซต์ต่างๆ
- โครงสร้างพื้นฐานเฉพาะทางให้ประสิทธิภาพที่เหนือกว่าบริการคลาวด์ทั่วไปสำหรับเวิร์กโหลดด้าน AI
- DeepSeek-V3 แสดงให้เห็นถึงประสิทธิภาพที่สูงมากในราคาเพียงเศษเสี้ยวของ GPT-4
ขณะนี้ CoreWeave กำลังสร้างแคมปัสดาต้าเซ็นเตอร์ขนาด 1.2 GW ในรัฐเท็กซัสเพื่อขยายขีดความสามารถนี้
จับตาดูว่าผู้เล่นรายใหญ่อย่าง AWS และ Google Cloud จะตอบสนองต่อความเร็วระดับนี้อย่างไร
แหล่งที่มา: https://dev.to/gentic_news/coreweave-trains-deepseek-v3-in-2-minutes-claims-mlperf-v60-record-3dp4
ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi