CoreWeave تسجل رقماً قياسياً جديداً مع DeepSeek-V3
قامت CoreWeave بتدريب DeepSeek-V3 في دقيقتين.
تضع هذه النتيجة رقماً قياسياً جديداً في MLPerf v6.0، حيث تتفوق على الرقم القياسي السابق لشركة AWS بنسبة 43%. وقد استغرقت AWS 3.5 دقيقة لإنجاز المهمة نفسها.
كيف حققوا ذلك:
- استخدام أكثر من 11,000 من وحدات NVIDIA H100 GPUs.
- توزيع عبء العمل عبر 4 مراكز بيانات.
- استخدام طبقة تنسيق (orchestration layer) مخصصة لإدارة الحوسبة.
كما قامت CoreWeave أيضاً بالتحقق من كفاءة Nvidia Vera Rubin NVL72 على مستوى الرفوف (rack scale)، مما يجعلها أول مزود خدمات سحابية يقوم بذلك.
لماذا يهم هذا مجال الذكاء الاصطناعي:
- تنخفض تكاليف التدريب عند استخدام آلاف من وحدات GPUs عبر مواقع متعددة.
- البنية التحتية المتخصصة تتفوق على الخدمات السحابية العامة في أعباء عمل الذكاء الاصطناعي.
- يُظهر DeepSeek-V3 أداءً عالياً بتكلفة لا تتجاوز جزءاً بسيطاً من تكاليف GPT-4.
تعمل CoreWeave حالياً على بناء مجمع مراكز بيانات بقدرة 1.2 جيجاوات في تكساس لتوسيع هذه القدرة.
ترقبوا كيف ستستجيب الشركات الكبرى مثل AWS و Google Cloud لهذه السرعات.
المصدر: https://dev.to/gentic_news/coreweave-trains-deepseek-v3-in-2-minutes-claims-mlperf-v60-record-3dp4
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi