મેં મારા ASUS ROG Ally પર સ્થાનિક રીતે LLM ચલાવ્યું

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 દિવસ પહેલાં2min read

મેં મારા ASUS ROG Ally પર સ્થાનિક રીતે LLM ચલાવ્યું

મેં મારા ASUS ROG Ally પર લોકલી એક LLM ચલાવ્યું

મેં થોડા અઠવાડિયા સુધી મારા ASUS ROG Ally પર લોકલ AI મોડેલ ચલાવ્યું. મને લાગ્યું કે આ એક મનોરંજક પ્રોજેક્ટ હશે. તેના બદલે, તે હાર્ડવેરની મર્યાદાઓ વિશેનો એક પાઠ બની ગયો.

મેં તેનો ઉપયોગ ક્લાઉડના વિકલ્પ તરીકે નથી કર્યો. મેં તેનો ઉપયોગ નાના કાર્યો માટે એક વિશિષ્ટ સાધન તરીકે કર્યો. હેન્ડહેલ્ડ હાર્ડવેર પર AI ચલાવવા વિશે મેં જે શીખ્યું તે અહીં છે.

મેમરીનો અવરોધ

હેન્ડહેલ્ડ્સ Unified Memory Architecture નો ઉપયોગ કરે છે. આનો અર્થ એ છે કે CPU અને GPU એક જ RAM શેર કરે છે. ડિફોલ્ટ રીતે, GPU ને મેમરીનો એક નાનો ભાગ મળે છે.

જો તમારું મોડેલ તે ભાગમાં સમાઈ ન જાય, તો સિસ્ટમ CPU નો ઉપયોગ કરે છે. આનાથી જનરેશન (generation) અત્યંત ધીમું થઈ જાય છે.

ઉકેલ:

તમારા BIOS માં જાઓ.
મેન્યુઅલી UMA frame buffer વધારો.
મેં મારું 4 GB સુધી વધાર્યું. આ ફેરફારે અન્ય કોઈપણ ટ્વીક (tweak) કરતા વધુ મદદ કરી.

શું કામ નથી કરતું

મેં મારી મેમરીમાંથી વધુ મેળવવા માટે zRAM નો ઉપયોગ કરવાનો પ્રયાસ કર્યો. તે નિષ્ફળ રહ્યો. મોટાભાગના AI મોડેલ્સ GGUF ફાઇલોનો ઉપયોગ કરે છે જે પહેલેથી જ કોમ્પ્રેસ થયેલી હોય છે. જગ્યા મેળવવા માટે તમે તેને વધુ કોમ્પ્રેસ કરી શકતા નથી.

મેં મદદ માટે disk swap નો ઉપયોગ કરવાનો પણ પ્રયાસ કર્યો. Swap વસ્તુઓને ઝડપી બનાવતું નથી. તે તેને બિનઉપયોગી બનાવે છે. જો તમારું મોડેલ disk swap પર આધારિત હોય, તો તમે દર થોડી સેકન્ડે માત્ર એક જ શબ્દ જોઈ શકશો.

Swap ચાલુ રાખવાનું એકમાત્ર કારણ એ છે કે જ્યારે તમારી પાસે RAM ખૂટી જાય ત્યારે સિસ્ટમ તમારી પ્રોસેસને બંધ (kill) ન કરી દે.

સ્મૂધ રન માટેની ટિપ્સ

જો તમારું AI આઉટપુટ અટકી-અટકીને આવતું હોય, તો તમારા Linux kernel સેટિંગ્સ તપાસો.

તમારી vm.swappiness વેલ્યુ ઘટાડો.
આ સિસ્ટમને મેમરીને ખૂબ વહેલી swap માં ખસેડતા અટકાવે છે.
તે જનરેશનને અટકી-અટકીને આવવાને બદલે સ્થિર બનાવે છે.

મોડેલની પસંદગી યુઝ-કેસ (Use-Case) પર આધારિત છે

મોટાભાગના લોકો સૌથી ઝડપી મોડેલ શોધતા હોય છે. તેના બદલે મેં ધીમું પણ વધુ સચોટ (sharper) મોડેલ પસંદ કર્યું.

જો તમે રિયલ ટાઇમમાં ચેટ કરો છો, તો તમારે ઝડપની જરૂર છે.
જો તમે બેકગ્રાઉન્ડ એજન્ટ ચલાવો છો, તો તમારે ગુણવત્તાની જરૂર છે.

હું મારા સેટઅપનો ઉપયોગ બેકગ્રાઉન્ડ કાર્યો માટે કરું છું. હું વિનંતી (request) મોકલું છું અને પછીથી પરિણામ તપાસું છું. કારણ કે હું સ્ક્રીન જોઈ રહ્યો નથી, તેથી જો પ્રતિસાદ 8 સેકન્ડને બદલે 40 સેકન્ડ લે છે તો મને તેનાથી કોઈ ફરક પડતો નથી. મને શ્રેષ્ઠ જવાબ જોઈએ છે, સૌથી ઝડપી નહીં.

હેન્ડહેલ્ડ્સ પર reasoning મોડેલ્સ ટાળો. નબળા હાર્ડવેર પર સ્ટેપ-બાય-સ્ટેપ વિચારવાની પ્રક્રિયામાં ઘણો સમય લાગે છે. ગુણવત્તામાં થતો વધારો ઘણીવાર તે રાહ જોવા લાયક હોતો નથી.

આ શેના માટે સારું છે

16 GB ઉપકરણ આ માટે ઉત્તમ છે:

ટૂંકા ઈમેલ ડ્રાફ્ટ કરવા માટે.
નાના કોડ સ્નિપેટ્સ (code snippets) રિવ્યુ કરવા માટે.
કાચું દૈનિક આયોજન કરવા માટે.
ખાનગી કાર્યો જે તમારા નેટવર્કની બહાર ન જવા જોઈએ.

તે આ માટે ખરાબ છે:

લાંબા દસ્તાવેજો.
ઊંડું સંશોધન.
જટિલ કોડિંગ પ્રોજેક્ટ્સ.

લોકલ AI એક સાધન છે, ચમત્કાર નથી. તે રૂટિન અને હળવા કામ માટે પરફેક્ટ છે.

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optional learning community: https://t.me/GyaanSetuAi

મેં મારા ASUS ROG Ally પર સ્થાનિક રીતે LLM ચલાવ્યું

Continue reading

AI આર્કિટેક્ચર બનાવવાની સાચી રીત

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗳𝗲𝗲𝗹𝘀 𝘀𝗹𝗼𝘄? 𝗠𝗮𝘆𝗯𝗲 𝗶𝘁'𝘀 𝗻𝗼𝘁 𝗱𝘂𝗺𝗯.

Local AI: How to Run Open Source Models Locally