CoreWeave Thiết Lập Kỷ Lục Mới Với DeepSeek-V3
CoreWeave đã huấn luyện DeepSeek-V3 trong 2 phút.
Kết quả này thiết lập một kỷ lục MLPerf v6.0 mới. Nó vượt qua kỷ lục trước đó của AWS tới 43%. AWS đã mất 3,5 phút để hoàn thành cùng một tác vụ.
Cách họ đã thực hiện:
- Sử dụng hơn 11.000 GPU NVIDIA H100.
- Phân bổ khối lượng công việc trên 4 trung tâm dữ liệu.
- Sử dụng một lớp điều phối (orchestration layer) tùy chỉnh để quản lý tính toán.
CoreWeave cũng đã xác thực Nvidia Vera Rubin NVL72 ở quy mô tủ rack. Điều này giúp họ trở thành nhà cung cấp đám mây đầu tiên thực hiện được điều này.
Tại sao điều này lại quan trọng đối với AI:
- Chi phí huấn luyện giảm xuống khi bạn sử dụng hàng nghìn GPU tại nhiều địa điểm khác nhau.
- Cơ sở hạ tầng chuyên dụng vượt trội hơn các dịch vụ đám mây thông thường đối với các khối lượng công việc AI.
- DeepSeek-V3 cho thấy hiệu suất cao với chi phí chỉ bằng một phần nhỏ so với GPT-4.
CoreWeave hiện đang xây dựng một tổ hợp trung tâm dữ liệu 1,2 GW tại Texas để mở rộng công suất này.
Hãy xem các ông lớn như AWS và Google Cloud phản ứng thế nào với tốc độ này.
Nguồn: https://dev.to/gentic_news/coreweave-trains-deepseek-v3-in-2-minutes-claims-mlperf-v60-record-3dp4
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi