CoreWeave establece un nuevo récord con DeepSeek-V3
CoreWeave entrenó DeepSeek-V3 en 2 minutos.
Este resultado establece un nuevo récord de MLPerf v6.0. Supera el récord anterior de AWS en un 43 por ciento. AWS tardó 3,5 minutos en completar la misma tarea.
Cómo lo lograron:
- Utilizaron más de 11.000 GPUs NVIDIA H100.
- Distribuyeron la carga de trabajo en 4 centros de datos.
- Utilizaron una capa de orquestación personalizada para gestionar el cómputo.
CoreWeave también validó Nvidia Vera Rubin NVL72 a escala de rack. Esto los convierte en el primer proveedor de la nube en hacerlo.
Por qué esto es importante para la IA:
- Los costos de entrenamiento disminuyen cuando se utilizan miles de GPUs en múltiples sitios.
- La infraestructura especializada supera a los servicios de nube generales para las cargas de trabajo de IA.
- DeepSeek-V3 muestra un alto rendimiento a una fracción de los costos de GPT-4.
CoreWeave está construyendo actualmente un campus de centros de datos de 1,2 GW en Texas para ampliar esta capacidad.
Observa cómo responden a estas velocidades los grandes actores como AWS y Google Cloud.
Fuente: https://dev.to/gentic_news/coreweave-trains-deepseek-v3-in-2-minutes-claims-mlperf-v60-record-3dp4
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi