𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

📅2 hours ago⏱2 min read

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗧𝗲𝗿𝗼𝗯𝗼𝗸𝗮𝗻 𝗔𝗜 𝗧𝗲𝗿𝗯𝘂𝗸𝗮 𝗱𝗮𝗿𝗶 𝗚𝗼𝗼𝗴𝗹𝗲

AI telah hidup di dua dunia yang terpisah selama bertahun-tahun.

Satu sisi menangani kata-kata melalui Large Language Models. Sisi lainnya menangani gambar melalui model difusi. Anda menggunakan satu untuk menulis dan yang lainnya untuk menggambar. Keduanya jarang berkomunikasi satu sama lain.

Google mengubah hal ini dengan DiffusionGemma.

Sebagian besar sistem multimodal terasa kaku. Mereka menggunakan encoder untuk melihat gambar, mengubahnya menjadi laporan teks, lalu memberikan laporan tersebut ke model bahasa. Proses penerjemahan ini menghilangkan nuansa.

DiffusionGemma melewati perantara.

Ia memperlakukan piksel dan kata-kata sebagai bahasa yang sama. Ia tidak menerjemahkan gambar menjadi ringkasan. Ia mengintegrasikan data gambar secara langsung ke dalam pemrosesannya. Ia melihat dan berpikir di saat yang bersamaan.

Pergeseran ini penting karena tiga alasan:

Penalaran Asli (Native Reasoning): Anda dapat menunjukkan bagan yang kompleks dan menanyakan dampak bisnisnya. Ia memahami datanya, bukan sekadar labelnya.
Kesadaran Spasial (Spatial Awareness): Tunjukkan diagram sebuah mesin dan tanyakan langkah-langkah perakitannya. Ia memahami bagaimana bagian-bagian tersebut saling terhubung.
Kreasi Holistik (Holistic Creation): Alih-alih memprediksi satu kata demi satu kata seperti tukang batu yang menyusun bata, ia bekerja seperti seorang pemahat. Ia memulai dengan noise digital dan menyempurnakan seluruh ide sekaligus.

Pendekatan ini menjauhkan kita dari sekadar prediksi kata. Ini membawa kita menuju kreasi yang sesungguhnya.

Google menjadikannya open source. Mereka merilis model dengan 2 miliar parameter dan varian 7 miliar parameter. Keduanya menggunakan arsitektur yang sama dengan model unggulan mereka, Imagen 3.

Ini memberi pengembang alat untuk membangun aplikasi yang lebih dari sekadar berbicara. Anda dapat membangun alat yang dapat melihat, membuat, dan bernalar di berbagai jenis data.

Persaingan bukan lagi sekadar tentang siapa yang memiliki model terbesar. Ini tentang siapa yang memiliki arsitektur tercerdas.

Sumber: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Komunitas belajar opsional: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗧𝗵𝗲 𝗥𝗶𝘀𝗲 𝗼𝗳 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜: 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗶𝗻𝗴 𝗦𝗼𝗳𝘁𝘄𝗮𝗿𝗲 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

Bagaimana Transformer Bekerja

Inversi Langsung: Meningkatkan Pengeditan Difusi