𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

Translated for your language. Ler o original.

AI-assisted draft.

anteontem1min de leitura

O Google lançou o Gemma 2. Este modelo prova que você não precisa de um tamanho massivo para obter alto desempenho. O modelo de 27B compete com modelos que têm o dobro do seu tamanho.

O segredo está na arquitetura.

O Gemma 2 utiliza um método de atenção híbrido. A atenção padrão é lenta e pesada. O Gemma 2 resolve isso alternando entre dois tipos de atenção:

• Atenção de janela deslizante local: Esta foca em uma janela de 4096 tokens. Ela lida com o contexto imediato de forma rápida. • Atenção global: Esta analisa o contexto completo de 8192 tokens.

Essa combinação oferece eficiência e um contexto profundo sem o alto custo computacional.

Os modelos também utilizam Grouped-Query Attention (GQA). Isso permite que múltiplas cabeças de consulta compartilhem um único conjunto de chave e valor. Isso reduz o uso de memória e acelera a geração de texto. Os modelos de 9B e 27B utilizam GQA. O modelo de 2B utiliza uma versão ainda mais rápida chamada Multi-Query Attention (MQA).

Os métodos de treinamento também mudaram. Os modelos de 2B e 9B utilizaram destilação de conhecimento. Eles aprenderam com um modelo professor maior. Isso os ajuda a entender padrões complexos melhor do que o treinamento padrão.

O que isso significa para você:

• Custos menores: Você pode executar o Gemma 2 27B em uma única GPU NVIDIA H100. • Melhor acesso: Modelos menores funcionam em hardware de consumo e dispositivos móveis. • Testes mais fáceis: Você pode executar modelos ajustados para instruções localmente usando o Ollama.

A indústria está mudando. Estamos deixando de apenas adicionar mais parâmetros. O foco agora é a inteligência por parâmetro. Isso torna a IA de alta qualidade mais sustentável e prática para todos.

Fonte: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

Continuar lendo

𝗚𝗼𝗼𝗴𝗹𝗲 𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕: 𝗔𝗜 𝗢𝗻 𝗬𝗼𝘂𝗿 𝗗𝗲𝘃𝗶𝗰𝗲

Gemma 4 12B mostra o quanto a IA multimodal local evoluiu

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

DiffusionGemma 26B: Geração de Texto Paralelo

Ninguém mais quer o seu modelo de 70B parâmetros