𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

📅3 hours ago⏱2 min read

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻-𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

2 GB RAM ધરાવતા Android ડિવાઇસ પર Llama 3.2 3B ચલાવવું મુશ્કેલ છે. મોટાભાગના ડેવલપર્સ મોડેલ વેટ્સ (model weights) પર ધ્યાન કેન્દ્રિત કરે છે. આ એક ભૂલ છે. વાસ્તવિક મેમરી ખાઈ જનારું પરિબળ KV cache છે.

જેમ તમે ચેટ કરો છો તેમ KV cache વધતું જાય છે. જો તમે સ્ટાન્ડર્ડ FP16 precision નો ઉપયોગ કરો છો, તો cache સેંકડો મેગાબાઈટ્સ રોકી લે છે. આના કારણે માત્ર થોડા જ ટર્ન પછી તમારું એપ ક્રેશ થઈ જાય છે.

તમે આ ત્રણ ચોક્કસ સ્ટેપ્સ દ્વારા આ સમસ્યા ઠીક કરી શકો છો.

Mixed-Precision Quantization નો ઉપયોગ કરો Keys અને values ને સમાન precision ની જરૂર નથી. Key caches ઓછા precision ને સારી રીતે હેન્ડલ કરી શકે છે, પરંતુ Value caches નથી કરી શકતા.

Keys માટે INT4 નો ઉપયોગ કરો.
Values માટે INT8 નો ઉપયોગ કરો.

આ અભિગમ તમારા cache ના કદને 62% ઘટાડે છે. 2048 token context માટે, તે 224 MB થી ઘટીને 84 MB થઈ જાય છે. આ મોડેલ વેટ્સ બદલ્યા વગર શક્ય બને છે.

Sliding Window Eviction લાગુ કરો તમે દરેક token ને એક્ટિવ મેમરીમાં રાખી શકતા નથી. માત્ર તાજેતરના 1536 tokens રાખવા માટે sliding window નો ઉપયોગ કરો. સિસ્ટમ પ્રોમ્પ્ટને જાળવી રાખવા માટે પ્રથમ 64 tokens ને anchors તરીકે રાખો.
Flash Spilling નો ઉપયોગ કરો જ્યારે tokens sliding window માંથી બહાર નીકળે, ત્યારે તેમને flash storage માં ખસેડો. Android પર memory-mapped files નો ઉપયોગ કરો. આધુનિક UFS 4.0 સ્ટોરેજ કોઈપણ લેગ વગર આ ડેટાને મેમરીમાં પાછો લાવવા માટે પૂરતું ઝડપી છે.

પરિણામો નોંધપાત્ર છે. Snapdragon 8 Gen 3 પર:

Peak memory 2 GB ની મર્યાદાથી નીચે જાય છે.
મહત્તમ વાતચીતના ટર્ન 4 થી વધીને 12 થી વધુ થાય છે.
Token speed વધે છે કારણ કે નાના caches મેમરી બેન્ડવિડ્થનો વધુ સારી રીતે ઉપયોગ કરે છે.
મોડેલની ગુણવત્તા લગભગ સમાન રહે છે.

આ ભૂલો ટાળો:

Keys અને values ને સમાન લેવલ પર quantize ન કરો. તમે ગુણવત્તા ગુમાવશો.
Thermal throttling ને અવગણશો નહીં. સતત inference કરવાથી ઉપકરણ ગરમ થાય છે. પર્ફોર્મન્સ મેનેજ કરવા માટે Android Thermal HAL તપાસો.
Cache lifecycle ને ભૂલશો નહીં. મેમરી લીક (memory leaks) ટાળવા માટે હંમેશા mapped buffers ને યોગ્ય સ્કોપ (scope) સાથે જોડો.

ફીચર્સ બનાવતા પહેલા તમારું મેમરી બજેટ તૈયાર કરો.

Source: https://dev.to/software_mvp-factory/kv-cache-quantization-for-on-device-llms-kf

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

એન્ડ્રોઇડ LLMs માટે કસ્ટમ Vulkan કર્નલ્સ

𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗶𝗻𝗴 𝗥𝗲𝗮𝗹 𝗧𝗶𝗺𝗲 𝗖𝗵𝗮𝘁 𝗔𝗽𝗽𝘀

𝗥𝗲𝗮𝗰𝘁 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻

𝟳 𝗛𝗶𝗱𝗱𝗲𝗻 𝗝𝗮𝘃𝗮𝗦𝗰𝗿𝗶𝗽𝘁 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗕𝗼𝘁𝘁𝗹𝗲𝗻𝗲𝗰𝗸𝘀