𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

📅2 hours ago⏱2 min read

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗘𝗹 𝗴𝗶𝗿𝗼 𝗱𝗲 𝗚𝗼𝗼𝗴𝗹𝗲 𝗲𝗻 𝗹𝗮 𝗜𝗔 𝗮𝗯𝗶𝗲𝗿𝘁𝗮

La IA ha vivido en dos mundos separados durante años.

Un lado gestiona las palabras mediante modelos de lenguaje de gran tamaño. El otro lado gestiona las imágenes mediante modelos de difusión. Usas uno para escribir y el otro para dibujar. Rara vez se comunican entre sí.

Google está cambiando esto con DiffusionGemma.

La mayoría de los sistemas multimodales son torpes. Utilizan un codificador para observar una imagen, convertirla en un informe de texto y luego entregar ese informe a un modelo de lenguaje. Este proceso de traducción pierde matices.

DiffusionGemma se salta al intermediario.

Trata los píxeles y las palabras como el mismo lenguaje. No traduce una imagen en un resumen. Integra los datos de la imagen directamente en su procesamiento. Ve y piensa al mismo tiempo.

Este cambio es importante por tres razones:

Razonamiento nativo: Puedes mostrarle un gráfico complejo y preguntarle por el impacto empresarial. Entiende los datos, no solo las etiquetas.
Conciencia espacial: Muéstrale el diagrama de una máquina y pídele los pasos de montaje. Entiende cómo encajan las piezas.
Creación holística: En lugar de predecir una palabra a la vez como un albañil colocando ladrillos, trabaja como un escultor. Comienza con ruido digital y refina la idea completa de una sola vez.

Este enfoque nos aleja de la simple predicción de palabras. Nos acerca a la verdadera creación.

Google está haciendo esto de código abierto. Han lanzado un modelo de 2.000 millones de parámetros y una variante de 7.000 millones de parámetros. Estos utilizan la misma arquitectura que su modelo de primer nivel, Imagen 3.

Esto ofrece a los desarrolladores las herramientas para crear aplicaciones que hagan más que hablar. Puedes construir herramientas que vean, creen y razonen a través de diferentes tipos de datos.

La carrera ya no se trata solo de quién tiene el modelo más grande. Se trata de quién tiene la arquitectura más inteligente.

Fuente: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗧𝗵𝗲 𝗥𝗶𝘀𝗲 𝗼𝗳 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜: 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗶𝗻𝗴 𝗦𝗼𝗳𝘁𝘄𝗮𝗿𝗲 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

Cómo funcionan los Transformers

𝗗𝗶𝗿𝗲𝗰𝘁 𝗜𝗻𝘃𝗲𝗿𝘀𝗶𝗼𝗻: 𝗕𝗼𝗼𝘀𝘁𝗶𝗻𝗴 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗘𝗱𝗶𝘁𝗶𝗻𝗴