𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝘁𝗲𝘁𝘁𝘂𝗿𝗮: 𝗠𝗮𝗴𝗴𝗶𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗱𝗮𝗹 𝗠𝗶𝗻𝗶𝗺𝗼 𝗱𝗲𝗹𝗹𝗼 𝗠𝗼𝗱𝗲𝗹𝗹𝗼

Google ha rilasciato Gemma 2. Questo modello dimostra che non è necessaria una dimensione massiccia per ottenere prestazioni elevate. Il modello da 27B compete con modelli che hanno il doppio delle sue dimensioni.

Il segreto risiede nell'architettura.

Gemma 2 utilizza un metodo di attenzione ibrido. L'attenzione standard è lenta e pesante. Gemma 2 risolve questo problema passando tra due tipi di attenzione:

• Local sliding window attention: si concentra su una finestra di 4096 token. Gestisce rapidamente il contesto immediato. • Global attention: analizza l'intero contesto di 8192 token.

Questa combinazione offre efficienza e un contesto profondo senza l'elevato costo computazionale.

I modelli utilizzano anche la Grouped-Query Attention (GQA). Ciò consente a più query heads di condividere un unico set di chiavi (key) e valori (value). Questo riduce l'uso della memoria e velocizza la generazione del testo. I modelli da 9B e 27B utilizzano la GQA. Il modello da 2B utilizza una versione ancora più veloce chiamata Multi-Query Attention (MQA).

Anche i metodi di addestramento sono cambiati. I modelli da 2B e 9B hanno utilizzato la knowledge distillation. Hanno imparato da un modello "teacher" più grande. Questo li aiuta a comprendere pattern complessi meglio rispetto all'addestramento standard.

Cosa significa per te:

• Costi inferiori: puoi eseguire Gemma 2 27B su una singola GPU NVIDIA H100. • Maggiore accessibilità: i modelli più piccoli funzionano su hardware consumer e dispositivi mobili. • Test più semplici: puoi eseguire modelli instruction-tuned localmente utilizzando Ollama.

Il settore si sta evolvendo. Ci stiamo allontanando dalla semplice aggiunta di parametri. L'attenzione è ora rivolta all'intelligenza per parametro. Questo rende l'IA di alta qualità più sostenibile e pratica per tutti.

Fonte: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

Community di apprendimento opzionale: https://t.me/GyaanSetuAi