𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗧𝗲𝗿𝗼𝗯𝗼𝗸𝗮𝗻 𝗔𝗜 𝗧𝗲𝗿𝗯𝘂𝗸𝗮 𝗱𝗮𝗿𝗶 𝗚𝗼𝗼𝗴𝗹𝗲

AI telah hidup di dua dunia yang terpisah selama bertahun-tahun.

Satu sisi menangani kata-kata melalui Large Language Models. Sisi lainnya menangani gambar melalui model difusi. Anda menggunakan satu untuk menulis dan yang lainnya untuk menggambar. Keduanya jarang berkomunikasi satu sama lain.

Google mengubah hal ini dengan DiffusionGemma.

Sebagian besar sistem multimodal terasa kaku. Mereka menggunakan encoder untuk melihat gambar, mengubahnya menjadi laporan teks, lalu memberikan laporan tersebut ke model bahasa. Proses penerjemahan ini menghilangkan nuansa.

DiffusionGemma melewati perantara.

Ia memperlakukan piksel dan kata-kata sebagai bahasa yang sama. Ia tidak menerjemahkan gambar menjadi ringkasan. Ia mengintegrasikan data gambar secara langsung ke dalam pemrosesannya. Ia melihat dan berpikir di saat yang bersamaan.

Pergeseran ini penting karena tiga alasan:

Pendekatan ini menjauhkan kita dari sekadar prediksi kata. Ini membawa kita menuju kreasi yang sesungguhnya.

Google menjadikannya open source. Mereka merilis model dengan 2 miliar parameter dan varian 7 miliar parameter. Keduanya menggunakan arsitektur yang sama dengan model unggulan mereka, Imagen 3.

Ini memberi pengembang alat untuk membangun aplikasi yang lebih dari sekadar berbicara. Anda dapat membangun alat yang dapat melihat, membuat, dan bernalar di berbagai jenis data.

Persaingan bukan lagi sekadar tentang siapa yang memiliki model terbesar. Ini tentang siapa yang memiliki arsitektur tercerdas.

Sumber: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Komunitas belajar opsional: https://t.me/GyaanSetuAi