ഡിഫ്യൂഷൻജെമ്മ: ഗൂഗിളിന്റെ ഓപ്പൺ എഐ ട്വിസ്റ്റ്

📅2 hours ago⏱2 min read

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

വർഷങ്ങളായി AI രണ്ട് വ്യത്യസ്ത ലോകങ്ങളിലായിരുന്നു.

ഒരു വശത്ത് Large Language Models വഴി വാക്കുകൾ കൈകാര്യം ചെയ്യുന്നു. മറുവശത്ത് diffusion models വഴി ചിത്രങ്ങൾ കൈകാര്യം ചെയ്യുന്നു. എഴുതാൻ നിങ്ങൾ ഒന്നിനെയും വരയ്ക്കാൻ മറ്റൊന്നിനെയും ഉപയോഗിക്കുന്നു. അവ തമ്മിൽ അപൂർവ്വമായി മാത്രമേ ആശയവിനിമയം നടത്താറുള്ളൂ.

DiffusionGemma-ലൂടെ Google ഇത് മാറ്റിക്കൊണ്ടിരിക്കുകയാണ്.

മിക്ക മൾട്ടിമോഡൽ (multimodal) സിസ്റ്റങ്ങളും അത്ര കാര്യക്ഷമമല്ല. അവ ഒരു ചിത്രം നോക്കാൻ ഒരു encoder ഉപയോഗിക്കുകയും, അതിനെ ഒരു ടെക്സ്റ്റ് റിപ്പോർട്ടാക്കി മാറ്റുകയും, തുടർന്ന് ആ റിപ്പോർട്ട് ഒരു ലാംഗ്വേജ് മോഡലിന് നൽകുകയും ചെയ്യുന്നു. ഈ വിവർത്തന പ്രക്രിയയിൽ സൂക്ഷ്മമായ കാര്യങ്ങൾ നഷ്ടപ്പെടുന്നു.

DiffusionGemma ഇടനിലക്കാരെ ഒഴിവാക്കുന്നു.

ഇത് പിക്സലുകളെയും (pixels) വാക്കുകളെയും ഒരേ ഭാഷയായി പരിഗണിക്കുന്നു. ഇത് ഒരു ചിത്രത്തെ ഒരു സംഗ്രഹമായി (summary) വിവർത്തനം ചെയ്യുന്നില്ല. പകരം, ചിത്രത്തിലെ വിവരങ്ങളെ അതിന്റെ പ്രോസസ്സിംഗിലേക്ക് നേരിട്ട് സംയോജിപ്പിക്കുന്നു. ഇത് ഒരേസമയം കാണുകയും ചിന്തിക്കുകയും ചെയ്യുന്നു.

ഈ മാറ്റം മൂന്ന് കാരണങ്ങളാൽ പ്രധാനമാണ്:

Native Reasoning: നിങ്ങൾക്ക് ഒരു സങ്കീർണ്ണമായ ചാർട്ട് കാണിച്ചുകൊടുത്ത് അതിന്റെ ബിസിനസ്സ് സ്വാധീനത്തെക്കുറിച്ച് ചോദിക്കാം. ഇത് വെറും ലേബലുകൾ മാത്രമല്ല, ഡാറ്റയെയും മനസ്സിലാക്കുന്നു.
Spatial Awareness: ഒരു മെഷീന്റെ ഡയഗ്രം കാണിച്ചുകൊടുത്ത് അത് എങ്ങനെ യോജിപ്പിക്കാം എന്ന് ചോദിക്കാം. ഭാഗങ്ങൾ എങ്ങനെ പരസ്പരം ചേരുന്നു എന്ന് ഇതിന് മനസ്സിലാകും.
Holistic Creation: ഒരു കൽപ്പണിക്കാരൻ ഇഷ്ടികകൾ അടുക്കിവെക്കുന്നത് പോലെ ഓരോ വാക്കായി പ്രവചിക്കുന്നതിന് പകരം, ഇതൊരു ശില്പിയെപ്പോലെ പ്രവർത്തിക്കുന്നു. ഡിജിറ്റൽ നോയിസിൽ (digital noise) നിന്ന് തുടങ്ങി മുഴുവൻ ആശയത്തെയും ഒരേസമയം പരിഷ്കരിക്കുന്നു.

ഈ സമീപനം നമ്മെ ലളിതമായ വാക്ക് പ്രവചനങ്ങളിൽ നിന്ന് മാറ്റി യഥാർത്ഥ സൃഷ്ടിത്വത്തിലേക്ക് നയിക്കുന്നു.

Google ഇത് ഓപ്പൺ സോഴ്സ് ആക്കി മാറ്റുകയാണ്. അവർ 2-ബില്യൺ പാരാമീറ്റർ മോഡലും 7-ബില്യൺ പാരാമീറ്റർ വേരിയന്റും പുറത്തിറക്കിയിട്ടുണ്ട്. ഇവ അവരുടെ ഏറ്റവും മികച്ച Imagen 3 മോഡലിന്റെ അതേ ആർക്കിടെക്ചർ ആണ് ഉപയോഗിക്കുന്നത്.

സംസാരിക്കുന്നതിനേക്കാൾ ഉപരിയായി പ്രവർത്തിക്കുന്ന ആപ്പുകൾ നിർമ്മിക്കാൻ ഇത് ഡെവലപ്പർമാർക്ക് സഹായിക്കുന്നു. വിവിധതരം ഡാറ്റകൾ കാണാനും സൃഷ്ടിക്കാനും അവയെക്കുറിച്ച് ചിന്തിക്കാനും കഴിയുന്ന ടൂളുകൾ നിങ്ങൾക്ക് നിർമ്മിക്കാം.

മത്സരം ഇനി ആർക്കാണ് ഏറ്റവും വലിയ മോഡൽ എന്നതിനെക്കുറിച്ച് മാത്രമല്ല. ആർക്കാണ് ഏറ്റവും മികച്ച ആർക്കിടെക്ചർ എന്നതിനെക്കുറിച്ചാണ്.

Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optional learning community: https://t.me/GyaanSetuAi

ഡിഫ്യൂഷൻജെമ്മ: ഗൂഗിളിന്റെ ഓപ്പൺ എഐ ട്വിസ്റ്റ്

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗧𝗵𝗲 𝗥𝗶𝘀𝗲 𝗼𝗳 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜: 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗶𝗻𝗴 𝗦𝗼𝗳𝘁𝘄𝗮𝗿𝗲 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

ട്രാൻസ്ഫോർമറുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു

𝗗𝗶𝗿𝗲𝗰𝘁 𝗜𝗻𝘃𝗲𝗿𝘀𝗶𝗼𝗻: 𝗕𝗼𝗼𝘀𝘁𝗶𝗻𝗴 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗘𝗱𝗶𝘁𝗶𝗻𝗴