نشر GLM 5.2 على Modal

Translated for your language. اقرأ الأصل.

AI-assisted draft.

GyaanSetu Editorialقبل أسبوعين2دقيقة قراءة

في هذا المقال

نشر GLM-5.2 على Modal

GLM-5.2 هو نموذج ضخم مفتوح الأوزان. يستخدم بنية خليط من الخبراء (Mixture-of-Experts - MoE) للاستنتاج المعقد والبرمجة. إنه يضاهي نماذج مثل Claude 3.5 Sonnet في المهام الهندسية.

يتطلب الاستضافة الذاتية لهذا النموذج الذي يحتوي على 700 مليار معلمة (parameter) استخدام 8 وحدات معالجة رسومية من نوع NVIDIA H200. إليك كيف قمت بنشره باستخدام نهج بدون خادم (serverless) على Modal.

ميزة التكلفة

استئجار عقدة مخصصة تحتوي على 8 وحدات H200 أمر مكلف.

تبلغ تكلفة RunPod حوالي 35.12 دولارًا في الساعة.
تبلغ تكلفة Modal حوالي 36.31 دولارًا في الساعة.

ومع ذلك، فإن Modal يحاسب بالثانية. كما أنه يتوسع إلى الصفر (scales to zero) عندما لا تستخدمه. تكلفة جلسة تطوير مدتها 20 دقيقة تبلغ حوالي 12.00 دولارًا. وعندما تكون غير نشط، تكون التكلفة 0.00 دولار.

مقايضات التكميم (Quantization)

لا يمكنك تشغيل نموذج BF16 الكامل على عقدة واحدة، حيث يتطلب 1.5 تيرابايت من ذاكرة الفيديو (VRAM). لقد اختبرت تنسيقات مختلفة للعثور على أفضل توازن:

FP8: يتطلب حوالي 700 جيجابايت. يحافظ على دقة بنسبة 99.2%. هذا هو الخيار الأفضل، حيث يستخدم Tensor Cores الأصلية في معمارية Hopper لسرعة عالية.
INT8: يتطلب حوالي 750 جيجابايت. وهو أبطأ بسبب افتقاره إلى التحسين البرمجي للأجهزة (hardware optimization).
INT4: يتطلب حوالي 400 جيجابايت. تنخفض الدقة بشكل كبير في مهام الاستنتاج.

لماذا الاستضافة الذاتية؟

الخصوصية: احتفظ بشفرتك البرمجية الحساسة داخل شبكتك الآمنة الخاصة.
بلا حدود: تجنب حدود المعدل (rate limits) وتقييد السياق (context throttling) الموجود في واجهات برمجة التطبيقات (APIs) العامة.
ذاكرة تخزين مؤقت مستقرة: أنت تتحكم في ذاكرة وحدة معالجة الرسومات (GPU). تظل ذاكرة التخزين المؤقت للسياق (context cache) نشطة ومستقرة.

دروس تقنية

إصلاح أخطاء الاستيراد: اضطررت إلى حذف وحدة typing_extensions القديمة في ملف Dockerfile لمنع الانهيارات.
تسريع التحميل: أدت استراتيجية التحميل المسبق (prefetch strategy) إلى تقليل وقت تحميل النموذج من 12 دقيقة إلى دقيقة واحدة.
استخدام الوضع الفوري (Eager Mode): استغرق تجميع الرسوم البيانية الرياضية 20 دقيقة، بينما يبدأ الوضع الفوري (Eager mode) في 4.5 دقيقة. قد تلاحظ تأخيرًا طفيفًا في الاستعلام الأول، لكن الأمر يستحق من أجل التشغيل السريع.

النتيجة

يتعامل النموذج مع الملفات الضخمة بسهولة. لقد اختبرته مع أكثر من 1,000 سطر من كود Python. قام بتحليل المنطق وتقديم تحليل معماري دقيق. حتى أنه قام ببناء لعبة وظيفية مع صوت مخصص في تمريرة واحدة.

أصبحت الاستضافة الذاتية للذكاء الاصطناعي المتطور (frontier AI) ممكنة الآن للمطورين الأفراد. ستحصل على الخصوصية والقوة بتكلفة منخفضة.

المصدر: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

نشر GLM 5.2 على Modal

نشر GLM-5.2 على Modal

ميزة التكلفة

مقايضات التكميم (Quantization)

لماذا الاستضافة الذاتية؟

دروس تقنية

النتيجة

متابعة القراءة

نموذج GLM 5.2 من Zhipu AI يقلص الفجوة مع عمالقة البرمجة مغلقة المصدر

تشغيل GLM 5.2 محلياً على سطح المكتب الخاص بك

الرئيس التنفيذي لشركة Snowflake: نموذج GLM 5.2 ينافس Claude Opus 4.7 بجزء بسيط من التكلفة