𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

📅3 hours ago⏱1 min read

نموذج LLM بحجم 32B على معالج Xeon من عام 2008: سعة الذاكرة RAM أهم من الـ VRAM

حاولت تشغيل نموذج بحجم 20 جيجابايت على لابتوب العمل الخاص بي. يحتوي اللابتوب على بطاقة RTX 4070 وذاكرة RAM بسعة 16 جيجابايت. فشلت المحاولة، وتجمد النظام تمامًا.

قررت تجربة خادم (server) قديم من عام 2008 بدلاً من ذلك. يحتوي الخادم على معالجي Intel Xeon E5440 وذاكرة RAM بسعة 64 جيجابايت. لا يحتوي على وحدة معالجة رسومات (GPU).

كان الهدف بسيطًا: هل يمكن للأجهزة القديمة التي تمتلك ذاكرة كافية تشغيل نموذج ضخم يعجز اللابتوب عن تشغيله؟

إليك مقارنة بين الأجهزة:

اللابتوب:

المعالج (CPU): لابتوب حديث
الذاكرة العشوائية (RAM): 16 جيجابايت
وحدة معالجة الرسومات (GPU): 8 جيجابايت VRAM
النتيجة: تجمد النظام

الخادم:

المعالج (CPU): 2x Xeon E5440
الذاكرة العشوائية (RAM): 64 جيجابايت
وحدة معالجة الرسومات (GPU): لا يوجد
النتيجة: يعمل

الخادم بطيء. فهو يولد حوالي 0.01 توكن (token) في الثانية. بدأت الاختبار عند منتصف الليل وتحققت منه في الصباح.

حاول النموذج كتابة كود بلغة Forth. أنتج نسختين مختلفتين بعد عدة ساعات. وفشلت كلتا النسختين في العمل.

تعلمت شيئين من هذا:

سعة الذاكرة العشوائية (RAM) مهمة. تتيح لك ذاكرة RAM بسعة 64 جيجابايت تشغيل نماذج لا يمكن تشغيلها حتى لو توفرت 24 جيجابايت من مجموع الـ VRAM والـ RAM. ومع ذلك، فإن سرعة 0.01 توكن في الثانية ليست عملية للعمل.
النماذج الضخمة ليست سحرًا. لا يمكن للنموذج الضخم البرمجة بلغة متخصصة مثل Forth إذا لم يتم تدريبه عليها. للحصول على كود يعمل، أنت بحاجة إلى عملية أفضل؛ تحتاج إلى خوارزميات، ومترجمات (transpilers) حتمية، وأدوات أفضل.

لا تشترِ أجهزة باهظة الثمن لمجرد اختبار فكرة ما. قم بإجراء تجاربك على ما تملكه أولاً. الاستنتاج (inference) البطيء يظل استنتاجًا. لقد أعطاني الإجابة التي أحتاجها دون فاتورة ضخمة.

المصدر: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

نحو تقديم خدمة فعالة لنماذج اللغة الكبيرة (LLM)

𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨

تشغيل نموذجين على معالج رسومات واحد: الرياضيات وراء النماذج اللغوية الكبيرة (LLMs) المحلية