DiffusionGemma: 구글의 오픈 AI 반전

📅2 hours ago⏱2 min read

DiffusionGemma: Google의 오픈 AI 반전

AI는 수년 동안 두 개의 분리된 세계에서 존재해 왔습니다.

한쪽은 거대 언어 모델(LLM)을 통해 언어를 처리합니다. 다른 한쪽은 확산 모델(diffusion models)을 통해 이미지를 처리합니다. 하나는 글을 쓰는 데 사용하고, 다른 하나는 그림을 그리는 데 사용합니다. 이 둘은 서로 소통하는 경우가 거의 없습니다.

Google은 DiffusionGemma를 통해 이를 변화시키고 있습니다.

대부분의 멀티모달 시스템은 투박합니다. 인코더를 사용하여 사진을 보고 이를 텍스트 보고서로 변환한 다음, 그 보고서를 언어 모델에 전달합니다. 이 번역 과정에서 미묘한 차이(nuance)가 손실됩니다.

DiffusionGemma는 중간 단계를 건너뜁니다.

이 모델은 픽셀과 단어를 동일한 언어로 취급합니다. 이미지를 요약본으로 번역하지 않습니다. 이미지 데이터를 처리 과정에 직접 통합합니다. 보고 생각하는 것을 동시에 수행합니다.

이러한 변화가 중요한 이유는 세 가지입니다:

네이티브 추론(Native Reasoning): 복잡한 차트를 보여주고 비즈니스에 미치는 영향을 물어볼 수 있습니다. 단순히 라벨을 읽는 것이 아니라 데이터를 이해합니다.
공간 인지(Spatial Awareness): 기계 도면을 보여주고 조립 단계를 물어볼 수 있습니다. 부품들이 어떻게 맞물리는지 이해합니다.
총체적 창작(Holistic Creation): 벽돌을 쌓는 석공처럼 한 번에 한 단어씩 예측하는 대신, 조각가처럼 작동합니다. 디지털 노이즈에서 시작하여 전체 아이디어를 한 번에 정교하게 다듬어 나갑니다.

이러한 접근 방식은 단순한 단어 예측에서 벗어나 진정한 창작의 영역으로 우리를 이끕니다.

Google은 이를 오픈 소스로 공개하고 있습니다. 20억 개의 파라미터를 가진 모델과 70억 개의 파라미터를 가진 변형 모델을 출시했습니다. 이 모델들은 Google의 최상위 Imagen 3 모델과 동일한 아키텍처를 사용합니다.

이를 통해 개발자들은 단순히 대화하는 수준을 넘어선 앱을 구축할 수 있는 도구를 갖게 됩니다. 다양한 유형의 데이터를 보고, 창조하고, 추론하는 도구를 만들 수 있습니다.

이제 경쟁은 단순히 누가 더 큰 모델을 가졌느냐의 문제가 아닙니다. 누가 더 스마트한 아키텍처를 가졌느냐의 싸움입니다.

Optional learning community: https://t.me/GyaanSetuAi

Continue reading