मैंने अपने ASUS ROG Ally पर एक LLM स्थानीय रूप से चलाया

मैंने कुछ हफ्तों तक अपने ASUS ROG Ally पर एक लोकल AI मॉडल चलाया। मुझे लगा था कि यह एक मज़ेदार प्रोजेक्ट होगा। इसके बजाय, यह हार्डवेयर की सीमाओं का एक सबक बन गया।

मैंने इसका उपयोग क्लाउड के विकल्प के रूप में नहीं किया। मैंने इसका उपयोग छोटे कार्यों के लिए एक विशेष टूल के रूप में किया। हैंडहेल्ड हार्डवेयर पर AI चलाने के बारे में मैंने जो सीखा, वह यहाँ है।

मेमोरी की बाधा

हैंडहेल्ड डिवाइस Unified Memory Architecture का उपयोग करते हैं। इसका मतलब है कि CPU और GPU एक ही RAM साझा करते हैं। डिफ़ॉल्ट रूप से, GPU को मेमोरी का एक बहुत छोटा हिस्सा मिलता है।

यदि आपका मॉडल उस हिस्से में फिट नहीं होता है, तो सिस्टम CPU का उपयोग करता है। इससे जनरेशन (generation) बहुत धीमी हो जाती है।

समाधान:

  • अपने BIOS में जाएँ।
  • मैन्युअल रूप से UMA frame buffer बढ़ाएँ।
  • मैंने अपना 4 GB तक बढ़ाया। इस बदलाव ने किसी भी अन्य सुधार (tweak) की तुलना में अधिक मदद की।

क्या काम नहीं करता

मैंने अपनी मेमोरी से अधिक निकालने के लिए zRAM का उपयोग करने की कोशिश की। यह विफल रहा। अधिकांश AI मॉडल GGUF फाइलों का उपयोग करते हैं जो पहले से ही कंप्रेस (compressed) होती हैं। आप जगह बनाने के लिए उन्हें और अधिक कंप्रेस नहीं कर सकते।

मैंने मदद के लिए disk swap का उपयोग करने की भी कोशिश की। Swap चीजों को तेज़ नहीं बनाता। यह उन्हें अनुपयोगी बना देता है। यदि आपका मॉडल disk swap पर निर्भर है, तो आप हर कुछ सेकंड में केवल एक शब्द ही देख पाएंगे।

Swap को सक्षम रखने का एकमात्र कारण यह है कि जब आपकी RAM खत्म हो जाए तो सिस्टम आपके प्रोसेस को बंद (kill) न कर दे।

सुचारू रूप से चलाने के लिए टिप्स

यदि आपका AI आउटपुट रुक-रुक कर या झटके के साथ (choppy or jumpy) आता है, तो अपने Linux kernel सेटिंग्स की जाँच करें।

  • अपने vm.swappiness मान को कम करें।
  • यह सिस्टम को बहुत जल्दी मेमोरी को swap में ले जाने से रोकता है।
  • यह जनरेशन को अटकने के बजाय स्थिर बनाता है।

मॉडल का चुनाव उपयोग के मामले (Use-Case) पर निर्भर करता है

अधिकांश लोग सबसे तेज़ मॉडल की तलाश करते हैं। इसके बजाय मैंने एक धीमा लेकिन सटीक (sharper) मॉडल चुना।

  • यदि आप रियल-टाइम में चैट करते हैं, तो आपको गति की आवश्यकता है।
  • यदि आप बैकग्राउंड एजेंट चलाते हैं, तो आपको गुणवत्ता की आवश्यकता है।

मैं अपने सेटअप का उपयोग बैकग्राउंड कार्यों के लिए करता हूँ। मैं एक अनुरोध भेजता हूँ और बाद में परिणाम देखता हूँ। क्योंकि मैं स्क्रीन नहीं देख रहा हूँ, इसलिए मुझे इस बात की परवाह नहीं है कि जवाब 8 सेकंड के बजाय 40 सेकंड लेता है। मुझे सबसे अच्छा उत्तर चाहिए, सबसे तेज़ नहीं।

हैंडहेल्ड पर reasoning models से बचें। कमज़ोर हार्डवेयर पर स्टेप-बाय-स्टेप सोचने की प्रक्रिया में बहुत अधिक समय लगता है। गुणवत्ता में होने वाला सुधार अक्सर प्रतीक्षा करने लायक नहीं होता है।

यह किस काम के लिए अच्छा है

16 GB का डिवाइस इनके लिए बेहतरीन है:

  • छोटे ईमेल ड्राफ्ट करने के लिए।
  • छोटे कोड स्निपेट्स की समीक्षा करने के लिए।
  • रफ दैनिक योजना बनाने के लिए।
  • निजी कार्य जो आपके नेटवर्क से बाहर नहीं जाने चाहिए।

यह इनके लिए खराब है:

  • लंबे दस्तावेज़ों के लिए।
  • गहन शोध के लिए।
  • जटिल कोडिंग प्रोजेक्ट्स के लिए।

लोकल AI एक टूल है, चमत्कार नहीं। यह नियमित, हल्के काम के लिए एकदम सही है।

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optional learning community: https://t.me/GyaanSetuAi