DiffusionGemma: Новий поворот Google у сфері відкритого ШІ

ШІ роками існував у двох окремих світах.

Одна сторона працює зі словами за допомогою великих мовних моделей. Інша — із зображеннями за допомогою дифузійних моделей. Ви використовуєте одну для написання тексту, а іншу — для малювання. Вони рідко взаємодіють між собою.

Google змінює це за допомогою DiffusionGemma.

Більшість мультимодальних систем є незграбними. Вони використовують енкодер, щоб проаналізувати зображення, перетворити його на текстовий звіт, а потім передати цей звіт мовній моделі. У цьому процесі перекладу втрачаються нюанси.

DiffusionGemma оминає посередників.

Вона сприймає пікселі та слова як одну й ту саму мову. Вона не перекладає зображення в короткий опис. Вона інтегрує дані зображення безпосередньо у процес обробки. Вона бачить і мислить одночасно.

Цей зсув важливий з трьох причин:

Цей підхід відводить нас від простого передбачення слів. Він наближає нас до справжнього творення.

Google робить це відкритим джерелом. Вони випустили модель із 2 мільярдами параметрів та варіант із 7 мільярдами параметрів. Вони використовують ту саму архітектуру, що й їхня топова модель Imagen 3.

Це дає розробникам інструменти для створення додатків, які вміють більше, ніж просто спілкуватися. Ви можете створювати інструменти, які бачать, творять і міркують, використовуючи різні типи даних.

Гонка більше не полягає лише в тому, у кого більша модель. Тепер важливо, у кого розумніша архітектура.

Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optional learning community: https://t.me/GyaanSetuAi