મેં મારા ASUS ROG Ally પર લોકલી એક LLM ચલાવ્યું
મેં થોડા અઠવાડિયા સુધી મારા ASUS ROG Ally પર લોકલ AI મોડેલ ચલાવ્યું. મને લાગ્યું કે આ એક મનોરંજક પ્રોજેક્ટ હશે. તેના બદલે, તે હાર્ડવેરની મર્યાદાઓ વિશેનો એક પાઠ બની ગયો.
મેં તેનો ઉપયોગ ક્લાઉડના વિકલ્પ તરીકે નથી કર્યો. મેં તેનો ઉપયોગ નાના કાર્યો માટે એક વિશિષ્ટ સાધન તરીકે કર્યો. હેન્ડહેલ્ડ હાર્ડવેર પર AI ચલાવવા વિશે મેં જે શીખ્યું તે અહીં છે.
મેમરીનો અવરોધ
હેન્ડહેલ્ડ્સ Unified Memory Architecture નો ઉપયોગ કરે છે. આનો અર્થ એ છે કે CPU અને GPU એક જ RAM શેર કરે છે. ડિફોલ્ટ રીતે, GPU ને મેમરીનો એક નાનો ભાગ મળે છે.
જો તમારું મોડેલ તે ભાગમાં સમાઈ ન જાય, તો સિસ્ટમ CPU નો ઉપયોગ કરે છે. આનાથી જનરેશન (generation) અત્યંત ધીમું થઈ જાય છે.
ઉકેલ:
- તમારા BIOS માં જાઓ.
- મેન્યુઅલી UMA frame buffer વધારો.
- મેં મારું 4 GB સુધી વધાર્યું. આ ફેરફારે અન્ય કોઈપણ ટ્વીક (tweak) કરતા વધુ મદદ કરી.
શું કામ નથી કરતું
મેં મારી મેમરીમાંથી વધુ મેળવવા માટે zRAM નો ઉપયોગ કરવાનો પ્રયાસ કર્યો. તે નિષ્ફળ રહ્યો. મોટાભાગના AI મોડેલ્સ GGUF ફાઇલોનો ઉપયોગ કરે છે જે પહેલેથી જ કોમ્પ્રેસ થયેલી હોય છે. જગ્યા મેળવવા માટે તમે તેને વધુ કોમ્પ્રેસ કરી શકતા નથી.
મેં મદદ માટે disk swap નો ઉપયોગ કરવાનો પણ પ્રયાસ કર્યો. Swap વસ્તુઓને ઝડપી બનાવતું નથી. તે તેને બિનઉપયોગી બનાવે છે. જો તમારું મોડેલ disk swap પર આધારિત હોય, તો તમે દર થોડી સેકન્ડે માત્ર એક જ શબ્દ જોઈ શકશો.
Swap ચાલુ રાખવાનું એકમાત્ર કારણ એ છે કે જ્યારે તમારી પાસે RAM ખૂટી જાય ત્યારે સિસ્ટમ તમારી પ્રોસેસને બંધ (kill) ન કરી દે.
સ્મૂધ રન માટેની ટિપ્સ
જો તમારું AI આઉટપુટ અટકી-અટકીને આવતું હોય, તો તમારા Linux kernel સેટિંગ્સ તપાસો.
- તમારી vm.swappiness વેલ્યુ ઘટાડો.
- આ સિસ્ટમને મેમરીને ખૂબ વહેલી swap માં ખસેડતા અટકાવે છે.
- તે જનરેશનને અટકી-અટકીને આવવાને બદલે સ્થિર બનાવે છે.
મોડેલની પસંદગી યુઝ-કેસ (Use-Case) પર આધારિત છે
મોટાભાગના લોકો સૌથી ઝડપી મોડેલ શોધતા હોય છે. તેના બદલે મેં ધીમું પણ વધુ સચોટ (sharper) મોડેલ પસંદ કર્યું.
- જો તમે રિયલ ટાઇમમાં ચેટ કરો છો, તો તમારે ઝડપની જરૂર છે.
- જો તમે બેકગ્રાઉન્ડ એજન્ટ ચલાવો છો, તો તમારે ગુણવત્તાની જરૂર છે.
હું મારા સેટઅપનો ઉપયોગ બેકગ્રાઉન્ડ કાર્યો માટે કરું છું. હું વિનંતી (request) મોકલું છું અને પછીથી પરિણામ તપાસું છું. કારણ કે હું સ્ક્રીન જોઈ રહ્યો નથી, તેથી જો પ્રતિસાદ 8 સેકન્ડને બદલે 40 સેકન્ડ લે છે તો મને તેનાથી કોઈ ફરક પડતો નથી. મને શ્રેષ્ઠ જવાબ જોઈએ છે, સૌથી ઝડપી નહીં.
હેન્ડહેલ્ડ્સ પર reasoning મોડેલ્સ ટાળો. નબળા હાર્ડવેર પર સ્ટેપ-બાય-સ્ટેપ વિચારવાની પ્રક્રિયામાં ઘણો સમય લાગે છે. ગુણવત્તામાં થતો વધારો ઘણીવાર તે રાહ જોવા લાયક હોતો નથી.
આ શેના માટે સારું છે
16 GB ઉપકરણ આ માટે ઉત્તમ છે:
- ટૂંકા ઈમેલ ડ્રાફ્ટ કરવા માટે.
- નાના કોડ સ્નિપેટ્સ (code snippets) રિવ્યુ કરવા માટે.
- કાચું દૈનિક આયોજન કરવા માટે.
- ખાનગી કાર્યો જે તમારા નેટવર્કની બહાર ન જવા જોઈએ.
તે આ માટે ખરાબ છે:
- લાંબા દસ્તાવેજો.
- ઊંડું સંશોધન.
- જટિલ કોડિંગ પ્રોજેક્ટ્સ.
લોકલ AI એક સાધન છે, ચમત્કાર નથી. તે રૂટિન અને હળવા કામ માટે પરફેક્ટ છે.
Optional learning community: https://t.me/GyaanSetuAi
