DiffusionGemma: Google의 오픈 AI 반전

AI는 수년 동안 두 개의 분리된 세계에서 존재해 왔습니다.

한쪽은 거대 언어 모델(LLM)을 통해 언어를 처리합니다. 다른 한쪽은 확산 모델(diffusion models)을 통해 이미지를 처리합니다. 하나는 글을 쓰는 데 사용하고, 다른 하나는 그림을 그리는 데 사용합니다. 이 둘은 서로 소통하는 경우가 거의 없습니다.

Google은 DiffusionGemma를 통해 이를 변화시키고 있습니다.

대부분의 멀티모달 시스템은 투박합니다. 인코더를 사용하여 사진을 보고 이를 텍스트 보고서로 변환한 다음, 그 보고서를 언어 모델에 전달합니다. 이 번역 과정에서 미묘한 차이(nuance)가 손실됩니다.

DiffusionGemma는 중간 단계를 건너뜁니다.

이 모델은 픽셀과 단어를 동일한 언어로 취급합니다. 이미지를 요약본으로 번역하지 않습니다. 이미지 데이터를 처리 과정에 직접 통합합니다. 보고 생각하는 것을 동시에 수행합니다.

이러한 변화가 중요한 이유는 세 가지입니다:

이러한 접근 방식은 단순한 단어 예측에서 벗어나 진정한 창작의 영역으로 우리를 이끕니다.

Google은 이를 오픈 소스로 공개하고 있습니다. 20억 개의 파라미터를 가진 모델과 70억 개의 파라미터를 가진 변형 모델을 출시했습니다. 이 모델들은 Google의 최상위 Imagen 3 모델과 동일한 아키텍처를 사용합니다.

이를 통해 개발자들은 단순히 대화하는 수준을 넘어선 앱을 구축할 수 있는 도구를 갖게 됩니다. 다양한 유형의 데이터를 보고, 창조하고, 추론하는 도구를 만들 수 있습니다.

이제 경쟁은 단순히 누가 더 큰 모델을 가졌느냐의 문제가 아닙니다. 누가 더 스마트한 아키텍처를 가졌느냐의 싸움입니다.

Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optional learning community: https://t.me/GyaanSetuAi