CoreWeave、DeepSeek-V3で新記録を樹立
CoreWeaveはDeepSeek-V3のトレーニングをわずか2分で完了しました。
この結果は、MLPerf v6.0における新記録となります。従来のAWSの記録を43%上回りました。AWSが同じタスクを完了するのに要した時間は3.5分でした。
実現方法:
- 11,000基以上のNVIDIA H100 GPUを使用。
- ワークロードを4つのデータセンターに分散。
- コンピュート管理のためにカスタム・オーケストレーション・レイヤーを使用。
CoreWeaveはまた、ラックスケールでNvidia Vera Rubin NVL72の検証も行いました。これにより、同社はこれを実現した初のクラウドプロバイダーとなりました。
AIにとってこれが重要である理由:
- 複数のサイトにまたがる数千基のGPUを使用することで、トレーニングコストが低下します。
- AIワークロードにおいては、特化型のインフラが汎用的なクラウドサービスを凌駕します。
- DeepSeek-V3は、GPT-4のわずかなコストで高いパフォーマンスを発揮します。
CoreWeaveは現在、このキャパシティを拡大するため、テキサス州に1.2 GW規模のデータセンター・キャンパスを建設しています。
AWSやGoogle Cloudといった大手プレイヤーが、このスピードに対してどのように対応していくかに注目が集まっています。
出典: https://dev.to/gentic_news/coreweave-trains-deepseek-v3-in-2-minutes-claims-mlperf-v60-record-3dp4
学習コミュニティ(任意): https://t.me/GyaanSetuAi