قمت بتشغيل نموذج لغوي كبير (LLM) محلياً على جهاز ASUS ROG Ally الخاص بي
قمت بتشغيل نموذج ذكاء اصطناعي محلي على جهاز ASUS ROG Ally الخاص بي لعدة أسابيع. اعتقدت أنه سيكون مشروعاً ممتعاً، لكنه تحول بدلاً من ذلك إلى درس في حدود الأجهزة.
لم أستخدمه كبديل للسحابة، بل استخدمته كأداة متخصصة للمهام الصغيرة. إليكم ما تعلمته حول تشغيل الذكاء الاصطناعي على الأجهزة المحمولة.
حاجز الذاكرة
تستخدم الأجهزة المحمولة بنية الذاكرة الموحدة (Unified Memory Architecture). وهذا يعني أن المعالج (CPU) ومعالج الرسوميات (GPU) يتشاركان نفس ذاكرة الوصول العشوائي (RAM). وبشكل افتراضي، يحصل معالج الرسوميات على جزء ضئيل جداً من الذاكرة.
إذا لم يتسع النموذج لهذا الجزء، فسيستخدم النظام المعالج (CPU)، مما يجعل عملية التوليد بطيئة بشكل مؤلم.
الحل:
- ادخل إلى إعدادات BIOS.
- قم بزيادة ذاكرة التخزين المؤقت للإطارات (UMA frame buffer) يدوياً.
- لقد رفعت القيمة في جهازي إلى 4 جيجابايت. ساعد هذا التغيير أكثر من أي تعديل آخر.
ما الذي لا ينجح
حاولت استخدام zRAM لاستخراج المزيد من الذاكرة، لكن الأمر فشل. معظم نماذج الذكاء الاصطناعي تستخدم ملفات GGUF وهي مضغوطة بالفعل، لذا لا يمكنك ضغطها أكثر لكسب مساحة إضافية.
حاولت أيضاً استخدام الذاكرة الافتراضية (disk swap) للمساعدة، لكن الـ Swap لا يجعل الأمور أسرع، بل يجعلها غير قابلة للاستخدام. إذا اعتمد نموذجك على الـ disk swap، فلن ترى سوى كلمة واحدة كل بضع ثوانٍ.
السبب الوحيد لإبقاء الـ swap مفعلاً هو منع النظام من إغلاق عمليتك (process) عند نفاد ذاكرة الوصول العشوائي (RAM).
نصائح لتشغيل سلس
إذا شعرت أن مخرجات الذكاء الاصطناعي متقطعة أو غير مستقرة، فافحص إعدادات نواة لينكس (Linux kernel).
- قم بخفض قيمة
vm.swappiness. - هذا يمنع النظام من نقل الذاكرة إلى الـ swap في وقت مبكر جداً.
- وهذا يجعل عملية التوليد تبدو مستقرة بدلاً من التلعثم.
اختيار النموذج يعتمد على حالة الاستخدام
يبحث معظم الناس عن أسرع نموذج، لكنني اخترت بدلاً من ذلك نموذجاً أبطأ وأكثر دقة.
- إذا كنت تدردش في الوقت الفعلي، فأنت بحاجة إلى السرعة.
- إذا كنت تشغل عميلاً في الخلفية (background agent)، فأنت بحاجة إلى الجودة.
أنا أستخدم إعداداتي للمهام التي تعمل في الخلفية؛ حيث أرسل طلباً وأتحقق من النتيجة لاحقاً. وبما أنني لا أراقب الشاشة، فلا يهمني إذا استغرق الرد 40 ثانية بدلاً من 8 ثوانٍ. أنا أريد أفضل إجابة، وليس أسرعها.
تجنب نماذج الاستنتاج (reasoning models) على الأجهزة المحمولة؛ فعملية التفكير خطوة بخطوة تستغرق وقتاً طويلاً جداً على الأجهزة الضعيفة، وغالباً ما لا تستحق زيادة الجودة هذا الانتظار.
فيما يصلح هذا الجهاز
جهاز بذاكرة 16 جيجابايت رائع لـ:
- صياغة رسائل البريد الإلكتروني القصيرة.
- مراجعة مقتطفات برمجية صغيرة.
- التخطيط اليومي الأولي.
- المهام الخاصة التي يجب ألا تغادر شبكتك.
وهو سيء لـ:
- المستندات الطويلة.
- الأبحاث العميقة.
- المشاريع البرمجية المعقدة.
الذكاء الاصطناعي المحلي هو أداة وليس معجزة. إنه مثالي للأعمال الروتينية والخفيفة.
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi
