نموذج LLM بحجم 32B على معالج Xeon من عام 2008: سعة الذاكرة RAM أهم من الـ VRAM
حاولت تشغيل نموذج بحجم 20 جيجابايت على لابتوب العمل الخاص بي. يحتوي اللابتوب على بطاقة RTX 4070 وذاكرة RAM بسعة 16 جيجابايت. فشلت المحاولة، وتجمد النظام تمامًا.
قررت تجربة خادم (server) قديم من عام 2008 بدلاً من ذلك. يحتوي الخادم على معالجي Intel Xeon E5440 وذاكرة RAM بسعة 64 جيجابايت. لا يحتوي على وحدة معالجة رسومات (GPU).
كان الهدف بسيطًا: هل يمكن للأجهزة القديمة التي تمتلك ذاكرة كافية تشغيل نموذج ضخم يعجز اللابتوب عن تشغيله؟
إليك مقارنة بين الأجهزة:
اللابتوب:
- المعالج (CPU): لابتوب حديث
- الذاكرة العشوائية (RAM): 16 جيجابايت
- وحدة معالجة الرسومات (GPU): 8 جيجابايت VRAM
- النتيجة: تجمد النظام
الخادم:
- المعالج (CPU): 2x Xeon E5440
- الذاكرة العشوائية (RAM): 64 جيجابايت
- وحدة معالجة الرسومات (GPU): لا يوجد
- النتيجة: يعمل
الخادم بطيء. فهو يولد حوالي 0.01 توكن (token) في الثانية. بدأت الاختبار عند منتصف الليل وتحققت منه في الصباح.
حاول النموذج كتابة كود بلغة Forth. أنتج نسختين مختلفتين بعد عدة ساعات. وفشلت كلتا النسختين في العمل.
تعلمت شيئين من هذا:
سعة الذاكرة العشوائية (RAM) مهمة. تتيح لك ذاكرة RAM بسعة 64 جيجابايت تشغيل نماذج لا يمكن تشغيلها حتى لو توفرت 24 جيجابايت من مجموع الـ VRAM والـ RAM. ومع ذلك، فإن سرعة 0.01 توكن في الثانية ليست عملية للعمل.
النماذج الضخمة ليست سحرًا. لا يمكن للنموذج الضخم البرمجة بلغة متخصصة مثل Forth إذا لم يتم تدريبه عليها. للحصول على كود يعمل، أنت بحاجة إلى عملية أفضل؛ تحتاج إلى خوارزميات، ومترجمات (transpilers) حتمية، وأدوات أفضل.
لا تشترِ أجهزة باهظة الثمن لمجرد اختبار فكرة ما. قم بإجراء تجاربك على ما تملكه أولاً. الاستنتاج (inference) البطيء يظل استنتاجًا. لقد أعطاني الإجابة التي أحتاجها دون فاتورة ضخمة.
المصدر: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi