𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅

Kasi ya mafunzo mara nyingi hukwama kutokana na muda wa kutulia (idle time) katika pipeline. Muda huu wa kutulia unaitwa "bubble".

Mbinu mpya inayoitwa PACI inatatua tatizo hili. Inaondoa "bubbles" hizi na kuharakisha mafunzo kwa mara 1.69.

Timu nyingi hutumia mkakati unaitwa 1F1B-flush. Mbinu hii huweka uzito (weights) kuwa thabiti lakini hutengeneza nafasi zilizo wazi ambapo mfumo unasubiri data. Muda huu wa kusubiri hupunguza kasi ya kila kitu.

Mbinu nyingine zisizo za wakati mmoja (asynchronous) hujaribu kurekebisha hili. Hutumia mbinu tata kama vile kuhifadhi uzito (weight stashing) au nakala mbadala. Mbinu hizi hutumia kumbukumbu (memory) nyingi sana na mara nyingi hufanya mafunzo kutokuwa thabiti.

PACI huchukua njia tofauti. Inatumia mkusanyiko wa gradient wa ndani (local gradient accumulation). Hii huifanya pipeline iendelee kufanya kazi bila kuhitaji usawazishaji wa kimataifa (global synchronization).

Hapa kuna sababu kwa nini PACI ni muhimu:

  • Inalingana na uthabiti wa mbinu za kawaida.
  • Inatumia kiasi kile kile cha kumbukumbu.
  • Inafikia kasi ya mipangilio (configurations) ya haraka zaidi lakini nzito zaidi.
  • Inapunguza muda wa kufikia usahihi kwa mara 1.69.

Katika majaribio na GPT-2 Medium, PACI ilifikia usahihi unaolengwa kwa haraka zaidi. Inaonyesha kuwa unaweza kubadilisha kiasi kidogo cha mabadiliko ya uzito (weight drift) kwa faida kubwa ya ufanisi.

Kwa timu za uhandisi, hii inamaanisha upunguzaji wa 40% wa gharama za vifaa (hardware). Unapata matokeo ya haraka bila kununua GPU zaidi au kuongeza kumbukumbu zaidi.

Watafiti walijaribu hili kwenye pipeline ya hatua 8 kwa kutumia mifano ya aina ya GPT. Unaweza kuhitaji kurekebisha dirisha la mkusanyiko (accumulation window) ikiwa utabadilisha kina cha pipeline au ukubwa wa batch (batch size).

Unaweza kujaribu hili mwenyewe. Waandishi wametoa local-accumulation wrapper katika ghala lao (repository). Badilisha flush synchronizer yako ya sasa na hiyo ili kuona ongezeko la kasi.

Chanzo: https://dev.to/olaughter/local-gradient-accumulation-speeds-training-17x-2mdk

Jumuia ya hiari ya kujifunza: https://t.me/GyaanSetuAi