𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅

Translated for your language. Leggi l'originale.

AI-assisted draft.

𝗟'𝗮𝗰𝗰𝘂𝗺𝘂𝗹𝗼 𝗹𝗼𝗰𝗮𝗹𝗲 𝗱𝗲𝗹 𝗴𝗿𝗮𝗱𝗶𝗲𝗻𝘁𝗲 𝗮𝗰𝗰𝗲𝗹𝗲𝗿𝗮 𝗹'𝗮𝗱𝗱𝗲𝘀𝘁𝗿𝗮𝗺𝗲𝗻𝘁𝗼 𝗱𝗶 𝟭,𝟳𝘅

La velocità di addestramento spesso incontra un limite a causa dei tempi di inattività nelle pipeline. Questo tempo di inattività è chiamato "bubble".

Un nuovo metodo chiamato PACI risolve questo problema. Elimina queste bolle e accelera l'addestramento di 1,69x.

La maggior parte dei team utilizza una strategia chiamata 1F1B-flush. Questo metodo mantiene la coerenza dei pesi ma crea slot vuoti in cui il sistema attende i dati. Questi tempi di attesa rallentano tutto il processo.

Altri metodi asincroni cercano di risolvere il problema. Utilizzano trucchi complessi come il weight stashing o copie duplicate. Questi trucchi consumano troppa memoria e spesso rendono l'addestramento instabile.

PACI segue una strada diversa. Utilizza l'accumulo locale del gradiente. Questo mantiene la pipeline occupata senza la necessità di una sincronizzazione globale.

Ecco perché PACI è importante:

Eguaglia la stabilità dei metodi standard.
Utilizza la stessa quantità di memoria.
Raggiunge la velocità di configurazioni più veloci ma più pesanti.
Riduce il tempo per raggiungere l'accuratezza di 1,69x.

Nei test con GPT-2 Medium, PACI ha raggiunto l'accuratezza target molto più velocemente. Dimostra che è possibile scambiare piccole quantità di weight drift con enormi guadagni di efficienza.

Per i team di ingegneria, ciò significa una riduzione del 40% dei costi hardware. Si ottengono risultati più rapidi senza dover acquistare nuove GPU o aggiungere memoria.

I ricercatori hanno testato questo metodo su una pipeline a 8 stadi con modelli in stile GPT. Potrebbe essere necessario regolare la finestra di accumulo se si modifica la profondità della pipeline o la dimensione del batch.

Puoi testarlo tu stesso. Gli autori forniscono un wrapper di accumulo locale nel loro repository. Sostituisci il tuo attuale sincronizzatore flush con questo per vedere l'accelerazione.

Source: https://dev.to/olaughter/local-gradient-accumulation-speeds-training-17x-2mdk

Optional learning community: https://t.me/GyaanSetuAi

𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅

Continua a leggere

𝗔𝗜 𝗔𝘂𝗱𝗶𝘁𝘀 𝗜𝗻 𝗬𝗼𝘂𝗿 𝗖𝗜/𝗖𝗗 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

𝗕𝘂𝗶𝗹𝗱 𝗔 𝗟𝗼𝗰𝗮𝗹 𝗔𝘂𝘁𝗼𝗺𝗮𝘁𝗶𝗼𝗻 𝗦𝘁𝘂𝗱𝗶𝗼

Affrontare i colli di bottiglia delle prestazioni

𝗔𝗜 𝗧𝗲𝗰𝗵𝗻𝗼𝗹𝗼𝗴𝘆 𝗙𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻: 𝗖𝗹𝗼𝘀𝗲 𝘁𝗵𝗲 𝗔𝗜 𝗖𝗼𝗼𝗿𝗱𝗶𝗻𝗮𝘁𝗶𝗼𝗻 𝗚𝗮𝗽

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗳𝗲𝗲𝗹𝘀 𝘀𝗹𝗼𝘄? 𝗠𝗮𝘆𝗯𝗲 𝗶𝘁'𝘀 𝗻𝗼𝘁 𝗱𝘂𝗺𝗯.