𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗘𝗹 𝗴𝗶𝗿𝗼 𝗱𝗲 𝗚𝗼𝗼𝗴𝗹𝗲 𝗲𝗻 𝗹𝗮 𝗜𝗔 𝗮𝗯𝗶𝗲𝗿𝘁𝗮

La IA ha vivido en dos mundos separados durante años.

Un lado gestiona las palabras mediante modelos de lenguaje de gran tamaño. El otro lado gestiona las imágenes mediante modelos de difusión. Usas uno para escribir y el otro para dibujar. Rara vez se comunican entre sí.

Google está cambiando esto con DiffusionGemma.

La mayoría de los sistemas multimodales son torpes. Utilizan un codificador para observar una imagen, convertirla en un informe de texto y luego entregar ese informe a un modelo de lenguaje. Este proceso de traducción pierde matices.

DiffusionGemma se salta al intermediario.

Trata los píxeles y las palabras como el mismo lenguaje. No traduce una imagen en un resumen. Integra los datos de la imagen directamente en su procesamiento. Ve y piensa al mismo tiempo.

Este cambio es importante por tres razones:

Este enfoque nos aleja de la simple predicción de palabras. Nos acerca a la verdadera creación.

Google está haciendo esto de código abierto. Han lanzado un modelo de 2.000 millones de parámetros y una variante de 7.000 millones de parámetros. Estos utilizan la misma arquitectura que su modelo de primer nivel, Imagen 3.

Esto ofrece a los desarrolladores las herramientas para crear aplicaciones que hagan más que hablar. Puedes construir herramientas que vean, creen y razonen a través de diferentes tipos de datos.

La carrera ya no se trata solo de quién tiene el modelo más grande. Se trata de quién tiene la arquitectura más inteligente.

Fuente: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi