𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

📅2 hours ago⏱2 min read

DiffusionGemma: Новий поворот Google у сфері відкритого ШІ

ШІ роками існував у двох окремих світах.

Одна сторона працює зі словами за допомогою великих мовних моделей. Інша — із зображеннями за допомогою дифузійних моделей. Ви використовуєте одну для написання тексту, а іншу — для малювання. Вони рідко взаємодіють між собою.

Google змінює це за допомогою DiffusionGemma.

Більшість мультимодальних систем є незграбними. Вони використовують енкодер, щоб проаналізувати зображення, перетворити його на текстовий звіт, а потім передати цей звіт мовній моделі. У цьому процесі перекладу втрачаються нюанси.

DiffusionGemma оминає посередників.

Вона сприймає пікселі та слова як одну й ту саму мову. Вона не перекладає зображення в короткий опис. Вона інтегрує дані зображення безпосередньо у процес обробки. Вона бачить і мислить одночасно.

Цей зсув важливий з трьох причин:

Природне мислення: Ви можете показати їй складну діаграму і запитати про вплив на бізнес. Вона розуміє дані, а не лише підписи.
Просторове сприйняття: Покажіть їй схему механізму та попросіть описати кроки для його збирання. Вона розуміє, як деталі підходять одна до одної.
Цілісне творення: Замість того, щоб передбачати по одному слову за раз, наче муляр, що кладе цеглу, вона працює як скульптор. Вона починає з цифрового шуму і водночас вдосконалює всю ідею.

Цей підхід відводить нас від простого передбачення слів. Він наближає нас до справжнього творення.

Google робить це відкритим джерелом. Вони випустили модель із 2 мільярдами параметрів та варіант із 7 мільярдами параметрів. Вони використовують ту саму архітектуру, що й їхня топова модель Imagen 3.

Це дає розробникам інструменти для створення додатків, які вміють більше, ніж просто спілкуватися. Ви можете створювати інструменти, які бачать, творять і міркують, використовуючи різні типи даних.

Гонка більше не полягає лише в тому, у кого більша модель. Тепер важливо, у кого розумніша архітектура.

Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗧𝗵𝗲 𝗥𝗶𝘀𝗲 𝗼𝗳 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜: 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗶𝗻𝗴 𝗦𝗼𝗳𝘁𝘄𝗮𝗿𝗲 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

Як працюють трансформери

𝗗𝗶𝗿𝗲𝗰𝘁 𝗜𝗻𝘃𝗲𝗿𝘀𝗶𝗼𝗻: 𝗕𝗼𝗼𝘀𝘁𝗶𝗻𝗴 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗘𝗱𝗶𝘁𝗶𝗻𝗴