𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

📅3 hours ago⏱2 min read

Ukwazaji wa KV Cache kwa ajili ya LLM za Kwenye Kifaa

Kuendesha Llama 3.2 3B kwenye kifaa cha Android chenye RAM ya 2 GB ni vigumu. Watengenezaji wengi hulenga uzito wa modeli (model weights). Hili ni kosa. Kichocheo halisi cha matumizi makubwa ya kumbukumbu ni KV cache.

KV cache hukua unapoendelea kuchati. Ukitumia usahihi wa kawaida wa FP16, cache hiyo hutumia mamia ya megabaiti. Hii husababisha programu yako kusimama (crash) baada ya mizunguko michache tu.

Unaweza kutatua hili kwa hatua tatu mahususi.

Tumia Ukwazaji wa Usahihi Mchanganyiko (Mixed-Precision Quantization) Keys na values hazihitaji usahihi uleule. Key caches hushughulikia usahihi mdogo vizuri. Value caches haziwezi.

Tumia INT4 kwa keys.
Tumia INT8 kwa values.

Njia hii inapunguza ukubwa wa cache yako kwa 62%. Kwa muktadha (context) wa tokeni 2048, unashuka kutoka 224 MB hadi 84 MB. Hii hutokea bila kubadilisha uzito wa modeli.

Tekeleza Uondoaji wa Dirisha la Kuteleza (Sliding Window Eviction) Huwezi kuweka kila tokeni kwenye kumbukumbu inayofanya kazi. Tumia dirisha la kuteleza (sliding window) ili kuweka tokeni 1536 za hivi karibuni pekee. Weka tokeni 64 za kwanza kama nanga (anchors) ili kuhifadhi maelekezo ya mfumo (system prompt).
Tumia Flash Spilling Tokeni zinapotoka kwenye dirisha la kuteleza, zihamishie kwenye hifadhi ya flash. Tumia faili zilizopangwa kwenye kumbukumbu (memory-mapped files) kwenye Android. Hifadhi ya kisasa ya UFS 4.0 ni ya haraka vya kutosha kuleta data hii tena kwenye kumbukumbu bila kuchelewa.

Matokeo ni makubwa. Kwenye Snapdragon 8 Gen 3:

Kilele cha matumizi ya kumbukumbu kinashuka chini ya kikomo cha 2 GB.
Mizunguko ya juu ya mazungumzo inaongezeka kutoka 4 hadi zaidi ya 12.
Kasi ya tokeni inaongezeka kwa sababu cache ndogo hutumia upana wa bandari ya kumbukumbu (memory bandwidth) vizuri zaidi.
Ubora wa modeli unabaki vilevile karibu.

Epuka makosa haya:

Usizikwaze (quantize) keys na values katika kiwango kilekile. Utapoteza ubora.
Usipuuze thermal throttling. Uendeshaji endelevu hupandisha joto. Angalia Android Thermal HAL ili kudhibiti utendaji.
Usisahau mzunguko wa maisha wa cache (cache lifecycle). Daima unganisha buffer zilizopangwa (mapped buffers) na upeo (scope) unaofaa ili kuepuka uvujaji wa kumbukumbu (memory leaks).

Jenga bajeti yako ya kumbukumbu kabla ya kujenga vipengele vyako.

Chanzo: https://dev.to/software_mvp-factory/kv-cache-quantization-for-on-device-llms-kf

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗖𝘂𝘀𝘁𝗼𝗺 𝗩𝘂𝗹𝗸𝗮𝗻 𝗞𝗲𝗿𝗻𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗻𝗱𝗿𝗼𝗶𝗱 𝗟𝗟𝗠𝘀

𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗶𝗻𝗴 𝗥𝗲𝗮𝗹 𝗧𝗶𝗺𝗲 𝗖𝗵𝗮𝘁 𝗔𝗽𝗽𝘀

𝗥𝗲𝗮𝗰𝘁 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻

𝟳 𝗛𝗶𝗱𝗱𝗲𝗻 𝗝𝗮𝘃𝗮𝗦𝗰𝗿𝗶𝗽𝘁 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗕𝗼𝘁𝘁𝗹𝗲𝗻𝗲𝗰𝗸𝘀