DiffusionGemma: Неожиданный поворот Google в области открытого ИИ
Искусственный интеллект годами существовал в двух разных мирах.
Одна сторона работает со словами с помощью больших языковых моделей. Другая — с изображениями с помощью диффузионных моделей. Вы используете одну для письма, а другую — для рисования. Они редко взаимодействуют друг с другом.
Google меняет это с помощью DiffusionGemma.
Большинство мультимодальных систем неуклюжи. Они используют энкодер, чтобы «посмотреть» на картинку, превратить её в текстовый отчет, а затем передать этот отчет языковой модели. В процессе такого перевода теряются нюансы.
DiffusionGemma обходится без посредников.
Она воспринимает пиксели и слова как один и тот же язык. Она не переводит изображение в краткое описание, а интегрирует данные изображения напрямую в процесс обработки. Она видит и мыслит одновременно.
Этот сдвиг важен по трем причинам:
- Нативное рассуждение: Вы можете показать ей сложный график и спросить о влиянии на бизнес. Она понимает данные, а не просто подписи к ним.
- Пространственное восприятие: Покажите ей схему механизма и попросите описать шаги сборки. Она понимает, как детали стыкуются друг с другом.
- Целостное творчество: Вместо того чтобы предсказывать по одному слову за раз, подобно каменщику, укладывающему кирпичи, она работает как скульптор. Она начинает с цифрового шума и сразу оттачивает всю идею целиком.
Этот подход уводит нас от простого предсказания слов. Он приближает нас к истинному творчеству.
Google делает это открытым исходным кодом. Они выпустили модель с 2 миллиардами параметров и вариант с 7 миллиардами параметров. Они используют ту же архитектуру, что и их топовая модель Imagen 3.
Это дает разработчикам инструменты для создания приложений, которые умеют не только разговаривать. Вы можете создавать инструменты, которые видят, создают и рассуждают, работая с различными типами данных.
Гонка больше не идет только за тем, у кого модель больше. Теперь она идет за тем, у кого архитектура умнее.
Источник: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m
Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi