استقرار GLM-5.2 روی Modal

GLM-5.2 یک مدل عظیم با وزن‌های باز (open-weights) است. این مدل از معماری Mixture-of-Experts (MoE) برای استدلال پیچیده و کدنویسی استفاده می‌کند و در وظایف مهندسی با مدل‌هایی مانند Claude 3.5 Sonnet برابری می‌کند.

میزبانی شخصی (Self-hosting) این مدل با ۷۰۰ میلیارد پارامتر، به ۸ عدد GPU NVIDIA H200 نیاز دارد. در اینجا نحوه استقرار آن را با استفاده از رویکرد بدون سرور (serverless) روی Modal توضیح می‌دهم.

مزیت هزینه اجاره یک نود اختصاصی ۸x H200 گران است.

  • هزینه RunPod حدود ۳۵.۱۲ دلار در ساعت است.
  • هزینه Modal حدود ۳۶.۳۱ دلار در ساعت است.

با این حال، Modal هزینه‌ها را بر اساس ثانیه محاسبه می‌کند. زمانی که از آن استفاده نمی‌کنید، مقیاس آن به صفر می‌رسد (scales to zero). یک جلسه توسعه ۲۰ دقیقه‌ای حدود ۱۲.۰۰ دلار هزینه دارد. زمانی که غیرفعال هستید، هزینه ۰.۰۰ دلار است.

توازن‌های مربوط به کوانتیزاسیون (Quantization) شما نمی‌توانید مدل کامل BF16 را روی یک نود اجرا کنید؛ این کار به ۱.۵ ترابایت VRAM نیاز دارد. من فرمت‌های مختلف را برای یافتن بهترین تعادل آزمایش کردم:

  • FP8: حدود ۷۰۰ گیگابایت فضا نیاز دارد. دقت ۹۹.۲٪ را حفظ می‌کند. این بهترین انتخاب است. برای سرعت بالا از Hopper native Tensor Cores استفاده می‌کند.
  • INT8: حدود ۷۵۰ گیگابایت فضا نیاز دارد. به دلیل عدم بهره‌مندی از بهینه‌سازی سخت‌افزاری، کندتر است.
  • INT4: حدود ۴۰۰ گیگابایت فضا نیاز دارد. دقت در وظایف استدلالی به شدت کاهش می‌یابد.

چرا میزبانی شخصی؟ ۱. حریم خصوصی: کدهای حساس خود را در شبکه امن خودتان نگه دارید. ۲. بدون محدودیت: از محدودیت‌های نرخ درخواست (rate limits) و محدودیت‌های بافت (context throttling) موجود در APIهای عمومی اجتناب کنید. ۳. حافظه پنهان (Cache) پایدار: شما حافظه GPU را کنترل می‌کنید. حافظه پنهان بافت (context cache) شما گرم و پایدار باقی می‌ماند.

درس‌های فنی

  • رفع خطاهای Import: برای جلوگیری از کرش کردن، مجبور شدم یک ماژول قدیمی typing_extensions را در Dockerfile حذف کنم.
  • افزایش سرعت بارگذاری: استفاده از استراتژی prefetch زمان بارگذاری مدل را از ۱۲ دقیقه به ۱ دقیقه کاهش داد.
  • استفاده از Eager Mode: کامپایل کردن گراف‌های ریاضی ۲۰ دقیقه طول می‌کشید. حالت Eager در ۴.۵ دقیقه شروع می‌شود. ممکن است در اولین پرس‌وجو (query) تأخیر کمی مشاهده کنید، اما ارزش شروع سریع را دارد.

نتیجه این مدل فایل‌های بسیار بزرگ را به راحتی مدیریت می‌کند. من آن را با بیش از ۱۰۰۰ خط کد پایتون آزمایش کردم. مدل منطق کد را تجزیه کرد و تحلیل معماری دقیقی ارائه داد. حتی توانست در یک مرحله، یک بازی کاربردی با صدای سفارشی بسازد.

میزبانی شخصی هوش مصنوعی پیشرو (frontier AI) اکنون برای توسعه‌دهندگان انفرادی امکان‌پذیر است. شما حریم خصوصی و قدرت را با هزینه‌ای کم به دست می‌آورید.

منبع: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi