DiffusionGemma: Неожиданный поворот Google в области открытого ИИ

Искусственный интеллект годами существовал в двух разных мирах.

Одна сторона работает со словами с помощью больших языковых моделей. Другая — с изображениями с помощью диффузионных моделей. Вы используете одну для письма, а другую — для рисования. Они редко взаимодействуют друг с другом.

Google меняет это с помощью DiffusionGemma.

Большинство мультимодальных систем неуклюжи. Они используют энкодер, чтобы «посмотреть» на картинку, превратить её в текстовый отчет, а затем передать этот отчет языковой модели. В процессе такого перевода теряются нюансы.

DiffusionGemma обходится без посредников.

Она воспринимает пиксели и слова как один и тот же язык. Она не переводит изображение в краткое описание, а интегрирует данные изображения напрямую в процесс обработки. Она видит и мыслит одновременно.

Этот сдвиг важен по трем причинам:

Этот подход уводит нас от простого предсказания слов. Он приближает нас к истинному творчеству.

Google делает это открытым исходным кодом. Они выпустили модель с 2 миллиардами параметров и вариант с 7 миллиардами параметров. Они используют ту же архитектуру, что и их топовая модель Imagen 3.

Это дает разработчикам инструменты для создания приложений, которые умеют не только разговаривать. Вы можете создавать инструменты, которые видят, создают и рассуждают, работая с различными типами данных.

Гонка больше не идет только за тем, у кого модель больше. Теперь она идет за тем, у кого архитектура умнее.

Источник: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi