𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

AI பல ஆண்டுகளாக இரண்டு தனித்தனி உலகங்களில் வாழ்ந்து வருகிறது.

ஒரு பக்கம் Large Language Models மூலம் சொற்களைக் கையாள்கிறது. மற்றொரு பக்கம் diffusion models மூலம் படங்களைக் கையாள்கிறது. நீங்கள் ஒன்றை எழுதவும் மற்றொன்றை வரையவும் பயன்படுத்துகிறீர்கள். இவை இரண்டும் அரிதாகவே ஒன்றோடொன்று தொடர்பு கொள்கின்றன.

Google, DiffusionGemma மூலம் இதை மாற்றியமைக்கிறது.

பெரும்பாலான multimodal அமைப்புகள் தடுமாற்றத்துடன் செயல்படுகின்றன. அவை ஒரு படத்தை உற்றுநோக்க ஒரு encoder-ஐப் பயன்படுத்துகின்றன, அதை ஒரு உரை அறிக்கையாக (text report) மாற்றுகின்றன, பின்னர் அந்த அறிக்கையை ஒரு language model-க்கு வழங்குகின்றன. இந்த மொழிபெயர்ப்புச் செயல்முறையில் நுணுக்கங்கள் இழக்கப்படுகின்றன.

DiffusionGemma இடைத்தரகரைத் தவிர்க்கிறது.

இது pixels மற்றும் சொற்களை ஒரே மொழியாகக் கருதுகிறது. இது ஒரு படத்தை சுருக்கமாக மொழிபெயர்ப்பதில்லை. மாறாக, படத் தரவை (image data) நேரடியாக அதன் செயலாக்கத்தில் ஒருங்கிணைக்கிறது. இது ஒரே நேரத்தில் பார்க்கிறது மற்றும் சிந்திக்கிறது.

இந்த மாற்றம் மூன்று காரணங்களுக்காக முக்கியத்துவம் பெறுகிறது:

இந்த அணுகுமுறை நம்மை வெறும் சொல் கணிப்பிலிருந்து (word prediction) விலக்கி, உண்மையான படைப்பாற்றலை நோக்கி நகர்த்துகிறது.

Google இதை open source ஆக மாற்றுகிறது. அவர்கள் 2-billion parameter மாடல் மற்றும் 7-billion parameter மாடல் ஆகியவற்றை வெளியிட்டுள்ளனர். இவை அவர்களின் உயர்தர Imagen 3 மாடலின் அதே கட்டமைப்பைப் (architecture) பயன்படுத்துகின்றன.

இது டெவலப்பர்களுக்குப் பேசுவதை விட மேலான செயல்களைச் செய்யும் செயலிகளை உருவாக்கத் தேவையான கருவிகளை வழங்குகிறது. பல்வேறு வகையான தரவுகளைக் கண்டு, உருவாக்கி, சிந்திக்கும் கருவிகளை நீங்கள் உருவாக்க முடியும்.

இந்தப் போட்டி இனி யார் பெரிய மாடலைக் கொண்டுள்ளனர் என்பதில் மட்டும் இல்லை. யார் புத்திசாலித்தனமான கட்டமைப்பைக் (architecture) கொண்டுள்ளனர் என்பதில் தான் உள்ளது.

Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optional learning community: https://t.me/GyaanSetuAi