DiffusionGemma: Google चा Open AI Twist

AI अनेक वर्षांपासून दोन वेगळ्या जगात राहत आहे.

एक बाजू Large Language Models द्वारे शब्दांचे व्यवस्थापन करते. दुसरी बाजू diffusion models द्वारे प्रतिमांचे (images) व्यवस्थापन करते. तुम्ही एक लिहिण्यासाठी आणि दुसरे चित्र काढण्यासाठी वापरता. ते क्वचितच एकमेकांशी संवाद साधतात.

Google DiffusionGemma द्वारे हे बदलत आहे.

बहुतेक multimodal सिस्टिम्स अकार्यक्षम असतात. त्या चित्राकडे पाहण्यासाठी encoder चा वापर करतात, त्याचे मजकुरात (text report) रूपांतर करतात आणि नंतर तो रिपोर्ट language model ला देतात. या भाषांतर प्रक्रियेत बारकावे (nuance) हरवतात.

DiffusionGemma मध्यस्थाला वगळते.

ते pixels आणि शब्दांना एकच भाषा मानते. ते प्रतिमेचे सारांशात भाषांतर करत नाही. ते प्रतिमेचा डेटा थेट आपल्या प्रक्रियेत समाविष्ट करते. ते एकाच वेळी पाहते आणि विचार करते.

हे बदल तीन कारणांमुळे महत्त्वाचे आहेत:

हा दृष्टिकोन आपल्याला साध्या शब्द वर्तवण्यापासून दूर नेतो. तो आपल्याला खऱ्या निर्मितीकडे नेतो.

Google हे open source करत आहे. त्यांनी 2-billion parameter मॉडेल आणि 7-billion parameter व्हेरिएंट रिलीज केले आहे. हे त्यांच्या उच्च दर्जाच्या Imagen 3 मॉडेलप्रमाणेच आर्किटेक्चर वापरतात.

यामुळे डेव्हलपर्सना केवळ बोलण्यापलीकडे जाऊन काम करणाऱ्या ॲप्सची निर्मिती करण्यासाठी साधने मिळतात. तुम्ही विविध प्रकारच्या डेटावर पाहू शकणारी, निर्माण करू शकणारी आणि तर्क करू शकणारी साधने तयार करू शकता.

ही स्पर्धा आता केवळ कोणाकडे सर्वात मोठे मॉडेल आहे याबद्दल उरलेली नाही. ती कोणाकडे सर्वात स्मार्ट आर्किटेक्चर आहे याबद्दल आहे.

Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optional learning community: https://t.me/GyaanSetuAi