DiffusionGemma: Google चा Open AI Twist

📅2 hours ago⏱2 min read

DiffusionGemma: Google चा Open AI Twist

AI अनेक वर्षांपासून दोन वेगळ्या जगात राहत आहे.

एक बाजू Large Language Models द्वारे शब्दांचे व्यवस्थापन करते. दुसरी बाजू diffusion models द्वारे प्रतिमांचे (images) व्यवस्थापन करते. तुम्ही एक लिहिण्यासाठी आणि दुसरे चित्र काढण्यासाठी वापरता. ते क्वचितच एकमेकांशी संवाद साधतात.

Google DiffusionGemma द्वारे हे बदलत आहे.

बहुतेक multimodal सिस्टिम्स अकार्यक्षम असतात. त्या चित्राकडे पाहण्यासाठी encoder चा वापर करतात, त्याचे मजकुरात (text report) रूपांतर करतात आणि नंतर तो रिपोर्ट language model ला देतात. या भाषांतर प्रक्रियेत बारकावे (nuance) हरवतात.

DiffusionGemma मध्यस्थाला वगळते.

ते pixels आणि शब्दांना एकच भाषा मानते. ते प्रतिमेचे सारांशात भाषांतर करत नाही. ते प्रतिमेचा डेटा थेट आपल्या प्रक्रियेत समाविष्ट करते. ते एकाच वेळी पाहते आणि विचार करते.

हे बदल तीन कारणांमुळे महत्त्वाचे आहेत:

Native Reasoning: तुम्ही त्याला एक जटिल तक्ता (complex chart) दाखवू शकता आणि त्याचा व्यवसायावर होणारा परिणाम विचारू शकता. ते केवळ लेबल्सच नाही, तर डेटा देखील समजून घेते.
Spatial Awareness: त्याला एखाद्या मशीनचा आकृतीबंध (diagram) दाखवा आणि जोडणीच्या पायऱ्या (assembly steps) विचारा. भाग एकमेकांत कसे बसतात हे ते समजून घेते.
Holistic Creation: विटा रचणाऱ्या गवंडी कामगाराप्रमाणे एकेक शब्द वर्तवण्याऐवजी, ते एका शिल्पकाराप्रमाणे काम करते. ते डिजिटल नॉईजपासून (digital noise) सुरुवात करते आणि संपूर्ण संकल्पना एकाच वेळी परिष्कृत (refine) करते.

हा दृष्टिकोन आपल्याला साध्या शब्द वर्तवण्यापासून दूर नेतो. तो आपल्याला खऱ्या निर्मितीकडे नेतो.

Google हे open source करत आहे. त्यांनी 2-billion parameter मॉडेल आणि 7-billion parameter व्हेरिएंट रिलीज केले आहे. हे त्यांच्या उच्च दर्जाच्या Imagen 3 मॉडेलप्रमाणेच आर्किटेक्चर वापरतात.

यामुळे डेव्हलपर्सना केवळ बोलण्यापलीकडे जाऊन काम करणाऱ्या ॲप्सची निर्मिती करण्यासाठी साधने मिळतात. तुम्ही विविध प्रकारच्या डेटावर पाहू शकणारी, निर्माण करू शकणारी आणि तर्क करू शकणारी साधने तयार करू शकता.

ही स्पर्धा आता केवळ कोणाकडे सर्वात मोठे मॉडेल आहे याबद्दल उरलेली नाही. ती कोणाकडे सर्वात स्मार्ट आर्किटेक्चर आहे याबद्दल आहे.

Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optional learning community: https://t.me/GyaanSetuAi

DiffusionGemma: Google चा Open AI Twist

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗧𝗵𝗲 𝗥𝗶𝘀𝗲 𝗼𝗳 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜: 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗶𝗻𝗴 𝗦𝗼𝗳𝘁𝘄𝗮𝗿𝗲 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

ट्रान्सफॉर्मर्स कसे काम करतात

डायरेक्ट इन्व्हर्जन: डिफ्यूजन एडिटिंगला बूस्ट करणे