𝗖𝗼𝗿𝗲𝗪𝗲𝗮𝘃𝗲 𝗦𝗲𝘁𝘀 𝗡𝗲𝘄 𝗥𝗲𝗰𝗼𝗿𝗱 𝗪𝗶𝘁𝗵 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸-𝗩𝟯
CoreWeave навчила DeepSeek-V3 за 2 хвилини.
Цей результат встановлює новий рекорд MLPerf v6.0. Він перевершує попередній рекорд AWS на 43 відсотки. AWS знадобилося 3,5 хвилини для виконання того самого завдання.
Як вони це зробили:
- Використали понад 11 000 GPU NVIDIA H100.
- Розподілили робоче навантаження між 4 дата-центрами.
- Використали спеціалізований шар оркестрації для управління обчисленнями.
CoreWeave також протестувала Nvidia Vera Rubin NVL72 на рівні стійки. Це робить їх першим хмарним провайдером, який це зробив.
Чому це важливо для ШІ:
- Витрати на навчання знижуються, коли ви використовуєте тисячі GPU в різних локаціях.
- Спеціалізована інфраструктура перевершує загальні хмарні сервіси для навантажень ШІ.
- DeepSeek-V3 демонструє високу продуктивність за частку вартості GPT-4.
Зараз CoreWeave будує кампус дата-центрів потужністю 1,2 ГВт у Техасі, щоб розширити ці можливості.
Спостерігайте, як такі великі гравці, як AWS та Google Cloud, реагуватимуть на такі швидкості.
Джерело: https://dev.to/gentic_news/coreweave-trains-deepseek-v3-in-2-minutes-claims-mlperf-v60-record-3dp4
Додаткова спільнота для навчання: https://t.me/GyaanSetuAi