𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁
വർഷങ്ങളായി AI രണ്ട് വ്യത്യസ്ത ലോകങ്ങളിലായിരുന്നു.
ഒരു വശത്ത് Large Language Models വഴി വാക്കുകൾ കൈകാര്യം ചെയ്യുന്നു. മറുവശത്ത് diffusion models വഴി ചിത്രങ്ങൾ കൈകാര്യം ചെയ്യുന്നു. എഴുതാൻ നിങ്ങൾ ഒന്നിനെയും വരയ്ക്കാൻ മറ്റൊന്നിനെയും ഉപയോഗിക്കുന്നു. അവ തമ്മിൽ അപൂർവ്വമായി മാത്രമേ ആശയവിനിമയം നടത്താറുള്ളൂ.
DiffusionGemma-ലൂടെ Google ഇത് മാറ്റിക്കൊണ്ടിരിക്കുകയാണ്.
മിക്ക മൾട്ടിമോഡൽ (multimodal) സിസ്റ്റങ്ങളും അത്ര കാര്യക്ഷമമല്ല. അവ ഒരു ചിത്രം നോക്കാൻ ഒരു encoder ഉപയോഗിക്കുകയും, അതിനെ ഒരു ടെക്സ്റ്റ് റിപ്പോർട്ടാക്കി മാറ്റുകയും, തുടർന്ന് ആ റിപ്പോർട്ട് ഒരു ലാംഗ്വേജ് മോഡലിന് നൽകുകയും ചെയ്യുന്നു. ഈ വിവർത്തന പ്രക്രിയയിൽ സൂക്ഷ്മമായ കാര്യങ്ങൾ നഷ്ടപ്പെടുന്നു.
DiffusionGemma ഇടനിലക്കാരെ ഒഴിവാക്കുന്നു.
ഇത് പിക്സലുകളെയും (pixels) വാക്കുകളെയും ഒരേ ഭാഷയായി പരിഗണിക്കുന്നു. ഇത് ഒരു ചിത്രത്തെ ഒരു സംഗ്രഹമായി (summary) വിവർത്തനം ചെയ്യുന്നില്ല. പകരം, ചിത്രത്തിലെ വിവരങ്ങളെ അതിന്റെ പ്രോസസ്സിംഗിലേക്ക് നേരിട്ട് സംയോജിപ്പിക്കുന്നു. ഇത് ഒരേസമയം കാണുകയും ചിന്തിക്കുകയും ചെയ്യുന്നു.
ഈ മാറ്റം മൂന്ന് കാരണങ്ങളാൽ പ്രധാനമാണ്:
- Native Reasoning: നിങ്ങൾക്ക് ഒരു സങ്കീർണ്ണമായ ചാർട്ട് കാണിച്ചുകൊടുത്ത് അതിന്റെ ബിസിനസ്സ് സ്വാധീനത്തെക്കുറിച്ച് ചോദിക്കാം. ഇത് വെറും ലേബലുകൾ മാത്രമല്ല, ഡാറ്റയെയും മനസ്സിലാക്കുന്നു.
- Spatial Awareness: ഒരു മെഷീന്റെ ഡയഗ്രം കാണിച്ചുകൊടുത്ത് അത് എങ്ങനെ യോജിപ്പിക്കാം എന്ന് ചോദിക്കാം. ഭാഗങ്ങൾ എങ്ങനെ പരസ്പരം ചേരുന്നു എന്ന് ഇതിന് മനസ്സിലാകും.
- Holistic Creation: ഒരു കൽപ്പണിക്കാരൻ ഇഷ്ടികകൾ അടുക്കിവെക്കുന്നത് പോലെ ഓരോ വാക്കായി പ്രവചിക്കുന്നതിന് പകരം, ഇതൊരു ശില്പിയെപ്പോലെ പ്രവർത്തിക്കുന്നു. ഡിജിറ്റൽ നോയിസിൽ (digital noise) നിന്ന് തുടങ്ങി മുഴുവൻ ആശയത്തെയും ഒരേസമയം പരിഷ്കരിക്കുന്നു.
ഈ സമീപനം നമ്മെ ലളിതമായ വാക്ക് പ്രവചനങ്ങളിൽ നിന്ന് മാറ്റി യഥാർത്ഥ സൃഷ്ടിത്വത്തിലേക്ക് നയിക്കുന്നു.
Google ഇത് ഓപ്പൺ സോഴ്സ് ആക്കി മാറ്റുകയാണ്. അവർ 2-ബില്യൺ പാരാമീറ്റർ മോഡലും 7-ബില്യൺ പാരാമീറ്റർ വേരിയന്റും പുറത്തിറക്കിയിട്ടുണ്ട്. ഇവ അവരുടെ ഏറ്റവും മികച്ച Imagen 3 മോഡലിന്റെ അതേ ആർക്കിടെക്ചർ ആണ് ഉപയോഗിക്കുന്നത്.
സംസാരിക്കുന്നതിനേക്കാൾ ഉപരിയായി പ്രവർത്തിക്കുന്ന ആപ്പുകൾ നിർമ്മിക്കാൻ ഇത് ഡെവലപ്പർമാർക്ക് സഹായിക്കുന്നു. വിവിധതരം ഡാറ്റകൾ കാണാനും സൃഷ്ടിക്കാനും അവയെക്കുറിച്ച് ചിന്തിക്കാനും കഴിയുന്ന ടൂളുകൾ നിങ്ങൾക്ക് നിർമ്മിക്കാം.
മത്സരം ഇനി ആർക്കാണ് ഏറ്റവും വലിയ മോഡൽ എന്നതിനെക്കുറിച്ച് മാത്രമല്ല. ആർക്കാണ് ഏറ്റവും മികച്ച ആർക്കിടെക്ചർ എന്നതിനെക്കുറിച്ചാണ്.
Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m
Optional learning community: https://t.me/GyaanSetuAi