DiffusionGemma: Bước ngoặt AI mã nguồn mở của Google
AI đã tồn tại trong hai thế giới tách biệt suốt nhiều năm qua.
Một bên xử lý ngôn ngữ thông qua các Mô hình Ngôn ngữ Lớn (Large Language Models). Bên còn lại xử lý hình ảnh thông qua các mô hình khuếch tán (diffusion models). Bạn dùng một cái để viết và cái kia để vẽ. Chúng hiếm khi tương tác với nhau.
Google đang thay đổi điều này với DiffusionGemma.
Hầu hết các hệ thống đa phương thức (multimodal) đều còn vụng về. Chúng sử dụng một bộ mã hóa (encoder) để quan sát hình ảnh, chuyển đổi nó thành một bản báo cáo bằng văn bản, rồi sau đó đưa bản báo cáo đó cho một mô hình ngôn ngữ. Quá trình chuyển đổi này làm mất đi những sắc thái tinh tế.
DiffusionGemma bỏ qua bước trung gian này.
Nó coi pixel và từ ngữ là cùng một ngôn ngữ. Nó không dịch hình ảnh thành một bản tóm tắt. Thay vào đó, nó tích hợp trực tiếp dữ liệu hình ảnh vào quá trình xử lý. Nó vừa nhìn, vừa tư duy cùng một lúc.
Sự chuyển dịch này quan trọng vì ba lý do:
- Khả năng suy luận bản ngữ (Native Reasoning): Bạn có thể cho nó xem một biểu đồ phức tạp và hỏi về tác động kinh doanh. Nó hiểu được dữ liệu, chứ không chỉ là các nhãn dán.
- Nhận thức không gian (Spatial Awareness): Cho nó xem sơ đồ của một cỗ máy và yêu cầu các bước lắp ráp. Nó hiểu được cách các bộ phận khớp với nhau như thế nào.
- Sáng tạo toàn diện (Holistic Creation): Thay vì dự đoán từng từ một giống như một thợ nề đang đặt từng viên gạch, nó hoạt động như một nhà điêu khắc. Nó bắt đầu với nhiễu kỹ thuật số (digital noise) và tinh chỉnh toàn bộ ý tưởng cùng một lúc.
Cách tiếp cận này đưa chúng ta rời xa việc dự đoán từ ngữ đơn thuần. Nó đưa chúng ta hướng tới sự sáng tạo thực thụ.
Google đang biến điều này thành mã nguồn mở. Họ đã phát hành một mô hình 2 tỷ tham số và một biến thể 7 tỷ tham số. Những mô hình này sử dụng cùng một kiến trúc với mô hình Imagen 3 hàng đầu của họ.
Điều này cung cấp cho các nhà phát triển công cụ để xây dựng các ứng dụng không chỉ dừng lại ở việc trò chuyện. Bạn có thể xây dựng các công cụ có khả năng nhìn, sáng tạo và suy luận trên nhiều loại dữ liệu khác nhau.
Cuộc đua không còn chỉ là xem ai có mô hình lớn nhất. Mà là xem ai có kiến trúc thông minh nhất.
Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m
Optional learning community: https://t.me/GyaanSetuAi