DiffusionGemma: Google चा Open AI Twist
AI अनेक वर्षांपासून दोन वेगळ्या जगात राहत आहे.
एक बाजू Large Language Models द्वारे शब्दांचे व्यवस्थापन करते. दुसरी बाजू diffusion models द्वारे प्रतिमांचे (images) व्यवस्थापन करते. तुम्ही एक लिहिण्यासाठी आणि दुसरे चित्र काढण्यासाठी वापरता. ते क्वचितच एकमेकांशी संवाद साधतात.
Google DiffusionGemma द्वारे हे बदलत आहे.
बहुतेक multimodal सिस्टिम्स अकार्यक्षम असतात. त्या चित्राकडे पाहण्यासाठी encoder चा वापर करतात, त्याचे मजकुरात (text report) रूपांतर करतात आणि नंतर तो रिपोर्ट language model ला देतात. या भाषांतर प्रक्रियेत बारकावे (nuance) हरवतात.
DiffusionGemma मध्यस्थाला वगळते.
ते pixels आणि शब्दांना एकच भाषा मानते. ते प्रतिमेचे सारांशात भाषांतर करत नाही. ते प्रतिमेचा डेटा थेट आपल्या प्रक्रियेत समाविष्ट करते. ते एकाच वेळी पाहते आणि विचार करते.
हे बदल तीन कारणांमुळे महत्त्वाचे आहेत:
- Native Reasoning: तुम्ही त्याला एक जटिल तक्ता (complex chart) दाखवू शकता आणि त्याचा व्यवसायावर होणारा परिणाम विचारू शकता. ते केवळ लेबल्सच नाही, तर डेटा देखील समजून घेते.
- Spatial Awareness: त्याला एखाद्या मशीनचा आकृतीबंध (diagram) दाखवा आणि जोडणीच्या पायऱ्या (assembly steps) विचारा. भाग एकमेकांत कसे बसतात हे ते समजून घेते.
- Holistic Creation: विटा रचणाऱ्या गवंडी कामगाराप्रमाणे एकेक शब्द वर्तवण्याऐवजी, ते एका शिल्पकाराप्रमाणे काम करते. ते डिजिटल नॉईजपासून (digital noise) सुरुवात करते आणि संपूर्ण संकल्पना एकाच वेळी परिष्कृत (refine) करते.
हा दृष्टिकोन आपल्याला साध्या शब्द वर्तवण्यापासून दूर नेतो. तो आपल्याला खऱ्या निर्मितीकडे नेतो.
Google हे open source करत आहे. त्यांनी 2-billion parameter मॉडेल आणि 7-billion parameter व्हेरिएंट रिलीज केले आहे. हे त्यांच्या उच्च दर्जाच्या Imagen 3 मॉडेलप्रमाणेच आर्किटेक्चर वापरतात.
यामुळे डेव्हलपर्सना केवळ बोलण्यापलीकडे जाऊन काम करणाऱ्या ॲप्सची निर्मिती करण्यासाठी साधने मिळतात. तुम्ही विविध प्रकारच्या डेटावर पाहू शकणारी, निर्माण करू शकणारी आणि तर्क करू शकणारी साधने तयार करू शकता.
ही स्पर्धा आता केवळ कोणाकडे सर्वात मोठे मॉडेल आहे याबद्दल उरलेली नाही. ती कोणाकडे सर्वात स्मार्ट आर्किटेक्चर आहे याबद्दल आहे.
Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m
Optional learning community: https://t.me/GyaanSetuAi