I Ran an LLM Locally on my ASUS ROG Ally

Translated for your language. اقرأ الأصل.

AI-assisted draft.

GyaanSetu Editorialأول أمس2دقيقة قراءة

I Ran an LLM Locally on my ASUS ROG Ally

في هذا المقال

قمت بتشغيل نموذج لغوي كبير (LLM) محلياً على جهاز ASUS ROG Ally الخاص بي

قمت بتشغيل نموذج ذكاء اصطناعي محلي على جهاز ASUS ROG Ally الخاص بي لعدة أسابيع. اعتقدت أنه سيكون مشروعاً ممتعاً، لكنه تحول بدلاً من ذلك إلى درس في حدود الأجهزة.

لم أستخدمه كبديل للسحابة، بل استخدمته كأداة متخصصة للمهام الصغيرة. إليكم ما تعلمته حول تشغيل الذكاء الاصطناعي على الأجهزة المحمولة.

حاجز الذاكرة

تستخدم الأجهزة المحمولة بنية الذاكرة الموحدة (Unified Memory Architecture). وهذا يعني أن المعالج (CPU) ومعالج الرسوميات (GPU) يتشاركان نفس ذاكرة الوصول العشوائي (RAM). وبشكل افتراضي، يحصل معالج الرسوميات على جزء ضئيل جداً من الذاكرة.

إذا لم يتسع النموذج لهذا الجزء، فسيستخدم النظام المعالج (CPU)، مما يجعل عملية التوليد بطيئة بشكل مؤلم.

الحل:

ادخل إلى إعدادات BIOS.
قم بزيادة ذاكرة التخزين المؤقت للإطارات (UMA frame buffer) يدوياً.
لقد رفعت القيمة في جهازي إلى 4 جيجابايت. ساعد هذا التغيير أكثر من أي تعديل آخر.

ما الذي لا ينجح

حاولت استخدام zRAM لاستخراج المزيد من الذاكرة، لكن الأمر فشل. معظم نماذج الذكاء الاصطناعي تستخدم ملفات GGUF وهي مضغوطة بالفعل، لذا لا يمكنك ضغطها أكثر لكسب مساحة إضافية.

حاولت أيضاً استخدام الذاكرة الافتراضية (disk swap) للمساعدة، لكن الـ Swap لا يجعل الأمور أسرع، بل يجعلها غير قابلة للاستخدام. إذا اعتمد نموذجك على الـ disk swap، فلن ترى سوى كلمة واحدة كل بضع ثوانٍ.

السبب الوحيد لإبقاء الـ swap مفعلاً هو منع النظام من إغلاق عمليتك (process) عند نفاد ذاكرة الوصول العشوائي (RAM).

نصائح لتشغيل سلس

إذا شعرت أن مخرجات الذكاء الاصطناعي متقطعة أو غير مستقرة، فافحص إعدادات نواة لينكس (Linux kernel).

قم بخفض قيمة vm.swappiness.
هذا يمنع النظام من نقل الذاكرة إلى الـ swap في وقت مبكر جداً.
وهذا يجعل عملية التوليد تبدو مستقرة بدلاً من التلعثم.

اختيار النموذج يعتمد على حالة الاستخدام

يبحث معظم الناس عن أسرع نموذج، لكنني اخترت بدلاً من ذلك نموذجاً أبطأ وأكثر دقة.

إذا كنت تدردش في الوقت الفعلي، فأنت بحاجة إلى السرعة.
إذا كنت تشغل عميلاً في الخلفية (background agent)، فأنت بحاجة إلى الجودة.

أنا أستخدم إعداداتي للمهام التي تعمل في الخلفية؛ حيث أرسل طلباً وأتحقق من النتيجة لاحقاً. وبما أنني لا أراقب الشاشة، فلا يهمني إذا استغرق الرد 40 ثانية بدلاً من 8 ثوانٍ. أنا أريد أفضل إجابة، وليس أسرعها.

تجنب نماذج الاستنتاج (reasoning models) على الأجهزة المحمولة؛ فعملية التفكير خطوة بخطوة تستغرق وقتاً طويلاً جداً على الأجهزة الضعيفة، وغالباً ما لا تستحق زيادة الجودة هذا الانتظار.

فيما يصلح هذا الجهاز

جهاز بذاكرة 16 جيجابايت رائع لـ:

صياغة رسائل البريد الإلكتروني القصيرة.
مراجعة مقتطفات برمجية صغيرة.
التخطيط اليومي الأولي.
المهام الخاصة التي يجب ألا تغادر شبكتك.

وهو سيء لـ:

المستندات الطويلة.
الأبحاث العميقة.
المشاريع البرمجية المعقدة.

الذكاء الاصطناعي المحلي هو أداة وليس معجزة. إنه مثالي للأعمال الروتينية والخفيفة.

المصدر: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

I Ran an LLM Locally on my ASUS ROG Ally

قمت بتشغيل نموذج لغوي كبير (LLM) محلياً على جهاز ASUS ROG Ally الخاص بي

حاجز الذاكرة

ما الذي لا ينجح

نصائح لتشغيل سلس

اختيار النموذج يعتمد على حالة الاستخدام

فيما يصلح هذا الجهاز

متابعة القراءة

الطريقة الصحيحة لبناء بنية للذكاء الاصطناعي

كيف خفضت فاتورة الـ AI API الخاصة بنا إلى النصف مع الالتزام باتفاقيات مستوى الخدمة (SLAs) بنسبة 99%

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

هل تشعر أن ذكاءك الاصطناعي بطيء؟ ربما ليس السبب هو الغباء.

الذكاء الاصطناعي المحلي: كيفية تشغيل النماذج مفتوحة المصدر محلياً