DiffusionGemma: Новий поворот Google у сфері відкритого ШІ
ШІ роками існував у двох окремих світах.
Одна сторона працює зі словами за допомогою великих мовних моделей. Інша — із зображеннями за допомогою дифузійних моделей. Ви використовуєте одну для написання тексту, а іншу — для малювання. Вони рідко взаємодіють між собою.
Google змінює це за допомогою DiffusionGemma.
Більшість мультимодальних систем є незграбними. Вони використовують енкодер, щоб проаналізувати зображення, перетворити його на текстовий звіт, а потім передати цей звіт мовній моделі. У цьому процесі перекладу втрачаються нюанси.
DiffusionGemma оминає посередників.
Вона сприймає пікселі та слова як одну й ту саму мову. Вона не перекладає зображення в короткий опис. Вона інтегрує дані зображення безпосередньо у процес обробки. Вона бачить і мислить одночасно.
Цей зсув важливий з трьох причин:
- Природне мислення: Ви можете показати їй складну діаграму і запитати про вплив на бізнес. Вона розуміє дані, а не лише підписи.
- Просторове сприйняття: Покажіть їй схему механізму та попросіть описати кроки для його збирання. Вона розуміє, як деталі підходять одна до одної.
- Цілісне творення: Замість того, щоб передбачати по одному слову за раз, наче муляр, що кладе цеглу, вона працює як скульптор. Вона починає з цифрового шуму і водночас вдосконалює всю ідею.
Цей підхід відводить нас від простого передбачення слів. Він наближає нас до справжнього творення.
Google робить це відкритим джерелом. Вони випустили модель із 2 мільярдами параметрів та варіант із 7 мільярдами параметрів. Вони використовують ту саму архітектуру, що й їхня топова модель Imagen 3.
Це дає розробникам інструменти для створення додатків, які вміють більше, ніж просто спілкуватися. Ви можете створювати інструменти, які бачать, творять і міркують, використовуючи різні типи даних.
Гонка більше не полягає лише в тому, у кого більша модель. Тепер важливо, у кого розумніша архітектура.
Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m
Optional learning community: https://t.me/GyaanSetuAi