𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

📅2 hours ago⏱2 min read

AI பல ஆண்டுகளாக இரண்டு தனித்தனி உலகங்களில் வாழ்ந்து வருகிறது.

ஒரு பக்கம் Large Language Models மூலம் சொற்களைக் கையாள்கிறது. மற்றொரு பக்கம் diffusion models மூலம் படங்களைக் கையாள்கிறது. நீங்கள் ஒன்றை எழுதவும் மற்றொன்றை வரையவும் பயன்படுத்துகிறீர்கள். இவை இரண்டும் அரிதாகவே ஒன்றோடொன்று தொடர்பு கொள்கின்றன.

Google, DiffusionGemma மூலம் இதை மாற்றியமைக்கிறது.

பெரும்பாலான multimodal அமைப்புகள் தடுமாற்றத்துடன் செயல்படுகின்றன. அவை ஒரு படத்தை உற்றுநோக்க ஒரு encoder-ஐப் பயன்படுத்துகின்றன, அதை ஒரு உரை அறிக்கையாக (text report) மாற்றுகின்றன, பின்னர் அந்த அறிக்கையை ஒரு language model-க்கு வழங்குகின்றன. இந்த மொழிபெயர்ப்புச் செயல்முறையில் நுணுக்கங்கள் இழக்கப்படுகின்றன.

DiffusionGemma இடைத்தரகரைத் தவிர்க்கிறது.

இது pixels மற்றும் சொற்களை ஒரே மொழியாகக் கருதுகிறது. இது ஒரு படத்தை சுருக்கமாக மொழிபெயர்ப்பதில்லை. மாறாக, படத் தரவை (image data) நேரடியாக அதன் செயலாக்கத்தில் ஒருங்கிணைக்கிறது. இது ஒரே நேரத்தில் பார்க்கிறது மற்றும் சிந்திக்கிறது.

இந்த மாற்றம் மூன்று காரணங்களுக்காக முக்கியத்துவம் பெறுகிறது:

Native Reasoning: நீங்கள் ஒரு சிக்கலான வரைபடத்தைக் காட்டி அதன் வணிகத் தாக்கத்தைப் (business impact) பற்றி கேட்கலாம். இது லேபிள்களை (labels) மட்டும் புரிந்து கொள்ளாமல், தரவையும் புரிந்து கொள்கிறது.
Spatial Awareness: ஒரு இயந்திரத்தின் வரைபடத்தைக் காட்டி அதன் அசெம்பிளி நிலைகளை (assembly steps) கேட்கலாம். பாகங்கள் எவ்வாறு ஒன்றிணைகின்றன என்பதை இது புரிந்து கொள்கிறது.
Holistic Creation: ஒரு கொத்தனார் செங்கற்களை அடுக்கிச் செல்பவரைப் போல ஒவ்வொரு சொல்லாகக் கணிப்பதற்குப் பதிலாக, இது ஒரு சிற்பியைப் போலச் செயல்படுகிறது. இது டிஜிட்டல் இரைச்சலில் (digital noise) தொடங்கி, முழுமையான கருத்தையும் ஒரே நேரத்தில் செதுக்குகிறது.

இந்த அணுகுமுறை நம்மை வெறும் சொல் கணிப்பிலிருந்து (word prediction) விலக்கி, உண்மையான படைப்பாற்றலை நோக்கி நகர்த்துகிறது.

Google இதை open source ஆக மாற்றுகிறது. அவர்கள் 2-billion parameter மாடல் மற்றும் 7-billion parameter மாடல் ஆகியவற்றை வெளியிட்டுள்ளனர். இவை அவர்களின் உயர்தர Imagen 3 மாடலின் அதே கட்டமைப்பைப் (architecture) பயன்படுத்துகின்றன.

இது டெவலப்பர்களுக்குப் பேசுவதை விட மேலான செயல்களைச் செய்யும் செயலிகளை உருவாக்கத் தேவையான கருவிகளை வழங்குகிறது. பல்வேறு வகையான தரவுகளைக் கண்டு, உருவாக்கி, சிந்திக்கும் கருவிகளை நீங்கள் உருவாக்க முடியும்.

இந்தப் போட்டி இனி யார் பெரிய மாடலைக் கொண்டுள்ளனர் என்பதில் மட்டும் இல்லை. யார் புத்திசாலித்தனமான கட்டமைப்பைக் (architecture) கொண்டுள்ளனர் என்பதில் தான் உள்ளது.

Source: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗧𝗵𝗲 𝗥𝗶𝘀𝗲 𝗼𝗳 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜: 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗶𝗻𝗴 𝗦𝗼𝗳𝘁𝘄𝗮𝗿𝗲 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

நேரடி இன்வெர்ஷன்: டிஃப்யூஷன் எடிட்டிங்கை மேம்படுத்துதல்