𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅

Translated for your language. Read the original.

AI-assisted draft.

Kasi ya mafunzo mara nyingi hukwama kutokana na muda wa kutulia (idle time) katika pipeline. Muda huu wa kutulia unaitwa "bubble".

Mbinu mpya inayoitwa PACI inatatua tatizo hili. Inaondoa "bubbles" hizi na kuharakisha mafunzo kwa mara 1.69.

Timu nyingi hutumia mkakati unaitwa 1F1B-flush. Mbinu hii huweka uzito (weights) kuwa thabiti lakini hutengeneza nafasi zilizo wazi ambapo mfumo unasubiri data. Muda huu wa kusubiri hupunguza kasi ya kila kitu.

Mbinu nyingine zisizo za wakati mmoja (asynchronous) hujaribu kurekebisha hili. Hutumia mbinu tata kama vile kuhifadhi uzito (weight stashing) au nakala mbadala. Mbinu hizi hutumia kumbukumbu (memory) nyingi sana na mara nyingi hufanya mafunzo kutokuwa thabiti.

PACI huchukua njia tofauti. Inatumia mkusanyiko wa gradient wa ndani (local gradient accumulation). Hii huifanya pipeline iendelee kufanya kazi bila kuhitaji usawazishaji wa kimataifa (global synchronization).

Hapa kuna sababu kwa nini PACI ni muhimu:

Inalingana na uthabiti wa mbinu za kawaida.
Inatumia kiasi kile kile cha kumbukumbu.
Inafikia kasi ya mipangilio (configurations) ya haraka zaidi lakini nzito zaidi.
Inapunguza muda wa kufikia usahihi kwa mara 1.69.

Katika majaribio na GPT-2 Medium, PACI ilifikia usahihi unaolengwa kwa haraka zaidi. Inaonyesha kuwa unaweza kubadilisha kiasi kidogo cha mabadiliko ya uzito (weight drift) kwa faida kubwa ya ufanisi.

Kwa timu za uhandisi, hii inamaanisha upunguzaji wa 40% wa gharama za vifaa (hardware). Unapata matokeo ya haraka bila kununua GPU zaidi au kuongeza kumbukumbu zaidi.

Watafiti walijaribu hili kwenye pipeline ya hatua 8 kwa kutumia mifano ya aina ya GPT. Unaweza kuhitaji kurekebisha dirisha la mkusanyiko (accumulation window) ikiwa utabadilisha kina cha pipeline au ukubwa wa batch (batch size).

Unaweza kujaribu hili mwenyewe. Waandishi wametoa local-accumulation wrapper katika ghala lao (repository). Badilisha flush synchronizer yako ya sasa na hiyo ili kuona ongezeko la kasi.

Chanzo: https://dev.to/olaughter/local-gradient-accumulation-speeds-training-17x-2mdk

Jumuia ya hiari ya kujifunza: https://t.me/GyaanSetuAi

𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅

Continue reading

𝗔𝗜 𝗔𝘂𝗱𝗶𝘁𝘀 𝗜𝗻 𝗬𝗼𝘂𝗿 𝗖𝗜/𝗖𝗗 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

Jenga Studio ya Otomatiki ya Ndani

Kukabiliana na Vikwazo vya Utendaji

𝗔𝗜 𝗧𝗲𝗰𝗵𝗻𝗼𝗹𝗼𝗴𝘆 𝗙𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻: 𝗖𝗹𝗼𝘀𝗲 𝘁𝗵𝗲 𝗔𝗜 𝗖𝗼𝗼𝗿𝗱𝗶𝗻𝗮𝘁𝗶𝗼𝗻 𝗚𝗮𝗽

Je, AI yako inaonekana kuwa polepole? Labda siyo kwamba haina akili.