𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

Translated for your language. Leer el original.

AI-assisted draft.

anteayer1min de lectura

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹 -> Arquitectura de Gemma 2: Más rendimiento con menos modelo

Google lanzó Gemma 2. Este modelo demuestra que no se necesita un tamaño masivo para obtener un alto rendimiento. El modelo de 27B compite con modelos que tienen el doble de su tamaño.

El secreto reside en la arquitectura.

Gemma 2 utiliza un método de atención híbrido. La atención estándar es lenta y pesada. Gemma 2 soluciona esto alternando entre dos tipos de atención:

• Atención de ventana deslizante local: Se enfoca en una ventana de 4096 tokens. Gestiona el contexto inmediato con rapidez. • Atención global: Analiza el contexto completo de 8192 tokens.

Esta combinación ofrece eficiencia y un contexto profundo sin el alto coste computacional.

Los modelos también utilizan Grouped-Query Attention (GQA). Esto permite que múltiples cabezales de consulta compartan un único conjunto de claves y valores. Esto reduce el uso de memoria y acelera la generación de texto. Los modelos de 9B y 27B utilizan GQA. El modelo de 2B utiliza una versión aún más rápida llamada Multi-Query Attention (MQA).

Los métodos de entrenamiento también han cambiado. Los modelos de 2B y 9B utilizaron la destilación de conocimiento (knowledge distillation). Aprendieron de un modelo maestro más grande. Esto les ayuda a comprender patrones complejos mejor que el entrenamiento estándar.

Qué significa esto para ti:

• Menores costes: Puedes ejecutar Gemma 2 27B en una sola GPU NVIDIA H100. • Mejor acceso: Los modelos más pequeños funcionan en hardware de consumo y dispositivos móviles. • Pruebas más sencillas: Puedes ejecutar modelos ajustados por instrucciones (instruction-tuned) localmente usando Ollama.

La industria está cambiando. Nos estamos alejando de la simple adición de más parámetros. El enfoque ahora está en la inteligencia por parámetro. Esto hace que la IA de alta calidad sea más sostenible y práctica para todos.

Fuente: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

Seguir leyendo

𝗚𝗼𝗼𝗴𝗹𝗲 𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕: 𝗔𝗜 𝗢𝗻 𝗬𝗼𝘂𝗿 𝗗𝗲𝘃𝗶𝗰𝗲

Gemma 4 12B muestra cuánto ha avanzado la IA multimodal local

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Ya nadie quiere tu modelo de 70B parámetros