𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹
O Google lançou o Gemma 2. Este modelo prova que você não precisa de um tamanho massivo para obter alto desempenho. O modelo de 27B compete com modelos que têm o dobro do seu tamanho.
O segredo está na arquitetura.
O Gemma 2 utiliza um método de atenção híbrido. A atenção padrão é lenta e pesada. O Gemma 2 resolve isso alternando entre dois tipos de atenção:
• Atenção de janela deslizante local: Esta foca em uma janela de 4096 tokens. Ela lida com o contexto imediato de forma rápida. • Atenção global: Esta analisa o contexto completo de 8192 tokens.
Essa combinação oferece eficiência e um contexto profundo sem o alto custo computacional.
Os modelos também utilizam Grouped-Query Attention (GQA). Isso permite que múltiplas cabeças de consulta compartilhem um único conjunto de chave e valor. Isso reduz o uso de memória e acelera a geração de texto. Os modelos de 9B e 27B utilizam GQA. O modelo de 2B utiliza uma versão ainda mais rápida chamada Multi-Query Attention (MQA).
Os métodos de treinamento também mudaram. Os modelos de 2B e 9B utilizaram destilação de conhecimento. Eles aprenderam com um modelo professor maior. Isso os ajuda a entender padrões complexos melhor do que o treinamento padrão.
O que isso significa para você:
• Custos menores: Você pode executar o Gemma 2 27B em uma única GPU NVIDIA H100. • Melhor acesso: Modelos menores funcionam em hardware de consumo e dispositivos móveis. • Testes mais fáceis: Você pode executar modelos ajustados para instruções localmente usando o Ollama.
A indústria está mudando. Estamos deixando de apenas adicionar mais parâmetros. O foco agora é a inteligência por parâmetro. Isso torna a IA de alta qualidade mais sustentável e prática para todos.
Fonte: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi