DiffusionGemma: новый поворот Google в сфере открытого ИИ

📅2 hours ago⏱2 min read

DiffusionGemma: Неожиданный поворот Google в области открытого ИИ

Искусственный интеллект годами существовал в двух разных мирах.

Одна сторона работает со словами с помощью больших языковых моделей. Другая — с изображениями с помощью диффузионных моделей. Вы используете одну для письма, а другую — для рисования. Они редко взаимодействуют друг с другом.

Google меняет это с помощью DiffusionGemma.

Большинство мультимодальных систем неуклюжи. Они используют энкодер, чтобы «посмотреть» на картинку, превратить её в текстовый отчет, а затем передать этот отчет языковой модели. В процессе такого перевода теряются нюансы.

DiffusionGemma обходится без посредников.

Она воспринимает пиксели и слова как один и тот же язык. Она не переводит изображение в краткое описание, а интегрирует данные изображения напрямую в процесс обработки. Она видит и мыслит одновременно.

Этот сдвиг важен по трем причинам:

Нативное рассуждение: Вы можете показать ей сложный график и спросить о влиянии на бизнес. Она понимает данные, а не просто подписи к ним.
Пространственное восприятие: Покажите ей схему механизма и попросите описать шаги сборки. Она понимает, как детали стыкуются друг с другом.
Целостное творчество: Вместо того чтобы предсказывать по одному слову за раз, подобно каменщику, укладывающему кирпичи, она работает как скульптор. Она начинает с цифрового шума и сразу оттачивает всю идею целиком.

Этот подход уводит нас от простого предсказания слов. Он приближает нас к истинному творчеству.

Google делает это открытым исходным кодом. Они выпустили модель с 2 миллиардами параметров и вариант с 7 миллиардами параметров. Они используют ту же архитектуру, что и их топовая модель Imagen 3.

Это дает разработчикам инструменты для создания приложений, которые умеют не только разговаривать. Вы можете создавать инструменты, которые видят, создают и рассуждают, работая с различными типами данных.

Гонка больше не идет только за тем, у кого модель больше. Теперь она идет за тем, у кого архитектура умнее.

Источник: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

DiffusionGemma: новый поворот Google в сфере открытого ИИ

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗧𝗵𝗲 𝗥𝗶𝘀𝗲 𝗼𝗳 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜: 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗶𝗻𝗴 𝗦𝗼𝗳𝘁𝘄𝗮𝗿𝗲 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

Как работают трансформеры

Прямая инверсия: улучшение диффузионного редактирования