मैंने अपने ASUS ROG Ally पर एक LLM लोकल चलाया

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial3 दिन पहले2मिनट पढ़ें

मैंने अपने ASUS ROG Ally पर एक LLM लोकल चलाया

इस लेख में

मैंने अपने ASUS ROG Ally पर एक LLM स्थानीय रूप से चलाया

मैंने कुछ हफ्तों तक अपने ASUS ROG Ally पर एक लोकल AI मॉडल चलाया। मुझे लगा था कि यह एक मज़ेदार प्रोजेक्ट होगा। इसके बजाय, यह हार्डवेयर की सीमाओं का एक सबक बन गया।

मैंने इसका उपयोग क्लाउड के विकल्प के रूप में नहीं किया। मैंने इसका उपयोग छोटे कार्यों के लिए एक विशेष टूल के रूप में किया। हैंडहेल्ड हार्डवेयर पर AI चलाने के बारे में मैंने जो सीखा, वह यहाँ है।

मेमोरी की बाधा

हैंडहेल्ड डिवाइस Unified Memory Architecture का उपयोग करते हैं। इसका मतलब है कि CPU और GPU एक ही RAM साझा करते हैं। डिफ़ॉल्ट रूप से, GPU को मेमोरी का एक बहुत छोटा हिस्सा मिलता है।

यदि आपका मॉडल उस हिस्से में फिट नहीं होता है, तो सिस्टम CPU का उपयोग करता है। इससे जनरेशन (generation) बहुत धीमी हो जाती है।

समाधान:

अपने BIOS में जाएँ।
मैन्युअल रूप से UMA frame buffer बढ़ाएँ।
मैंने अपना 4 GB तक बढ़ाया। इस बदलाव ने किसी भी अन्य सुधार (tweak) की तुलना में अधिक मदद की।

क्या काम नहीं करता

मैंने अपनी मेमोरी से अधिक निकालने के लिए zRAM का उपयोग करने की कोशिश की। यह विफल रहा। अधिकांश AI मॉडल GGUF फाइलों का उपयोग करते हैं जो पहले से ही कंप्रेस (compressed) होती हैं। आप जगह बनाने के लिए उन्हें और अधिक कंप्रेस नहीं कर सकते।

मैंने मदद के लिए disk swap का उपयोग करने की भी कोशिश की। Swap चीजों को तेज़ नहीं बनाता। यह उन्हें अनुपयोगी बना देता है। यदि आपका मॉडल disk swap पर निर्भर है, तो आप हर कुछ सेकंड में केवल एक शब्द ही देख पाएंगे।

Swap को सक्षम रखने का एकमात्र कारण यह है कि जब आपकी RAM खत्म हो जाए तो सिस्टम आपके प्रोसेस को बंद (kill) न कर दे।

सुचारू रूप से चलाने के लिए टिप्स

यदि आपका AI आउटपुट रुक-रुक कर या झटके के साथ (choppy or jumpy) आता है, तो अपने Linux kernel सेटिंग्स की जाँच करें।

अपने vm.swappiness मान को कम करें।
यह सिस्टम को बहुत जल्दी मेमोरी को swap में ले जाने से रोकता है।
यह जनरेशन को अटकने के बजाय स्थिर बनाता है।

मॉडल का चुनाव उपयोग के मामले (Use-Case) पर निर्भर करता है

अधिकांश लोग सबसे तेज़ मॉडल की तलाश करते हैं। इसके बजाय मैंने एक धीमा लेकिन सटीक (sharper) मॉडल चुना।

यदि आप रियल-टाइम में चैट करते हैं, तो आपको गति की आवश्यकता है।
यदि आप बैकग्राउंड एजेंट चलाते हैं, तो आपको गुणवत्ता की आवश्यकता है।

मैं अपने सेटअप का उपयोग बैकग्राउंड कार्यों के लिए करता हूँ। मैं एक अनुरोध भेजता हूँ और बाद में परिणाम देखता हूँ। क्योंकि मैं स्क्रीन नहीं देख रहा हूँ, इसलिए मुझे इस बात की परवाह नहीं है कि जवाब 8 सेकंड के बजाय 40 सेकंड लेता है। मुझे सबसे अच्छा उत्तर चाहिए, सबसे तेज़ नहीं।

हैंडहेल्ड पर reasoning models से बचें। कमज़ोर हार्डवेयर पर स्टेप-बाय-स्टेप सोचने की प्रक्रिया में बहुत अधिक समय लगता है। गुणवत्ता में होने वाला सुधार अक्सर प्रतीक्षा करने लायक नहीं होता है।

यह किस काम के लिए अच्छा है

16 GB का डिवाइस इनके लिए बेहतरीन है:

छोटे ईमेल ड्राफ्ट करने के लिए।
छोटे कोड स्निपेट्स की समीक्षा करने के लिए।
रफ दैनिक योजना बनाने के लिए।
निजी कार्य जो आपके नेटवर्क से बाहर नहीं जाने चाहिए।

यह इनके लिए खराब है:

लंबे दस्तावेज़ों के लिए।
गहन शोध के लिए।
जटिल कोडिंग प्रोजेक्ट्स के लिए।

लोकल AI एक टूल है, चमत्कार नहीं। यह नियमित, हल्के काम के लिए एकदम सही है।

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optional learning community: https://t.me/GyaanSetuAi

मैंने अपने ASUS ROG Ally पर एक LLM लोकल चलाया

मैंने अपने ASUS ROG Ally पर एक LLM स्थानीय रूप से चलाया

मेमोरी की बाधा

क्या काम नहीं करता

सुचारू रूप से चलाने के लिए टिप्स

मॉडल का चुनाव उपयोग के मामले (Use-Case) पर निर्भर करता है

यह किस काम के लिए अच्छा है

पढ़ना जारी रखें

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

AgentGateway को एक सिमेंटिक ब्रेन देना

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗳𝗲𝗲𝗹𝘀 𝘀𝗹𝗼𝘄? 𝗠𝗮𝘆𝗯𝗲 𝗶𝘁'𝘀 𝗻𝗼𝘁 𝗱𝘂𝗺𝗯.

लोकल AI: ओपन सोर्स मॉडल्स को लोकल तरीके से कैसे चलाएं