𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻
Google DeepMind, DiffusionGemma 26B-ஐ வெளியிட்டுள்ளது. இந்த மாடல் வழக்கமான autoregressive முறைக்கு பதிலாக discrete diffusion முறையைப் பயன்படுத்துகிறது.
GPT அல்லது Llama போன்ற பெரும்பாலான மாடல்கள் ஒவ்வொரு முறையும் ஒரு டோக்கனை (token) மட்டுமே உருவாக்குகின்றன. ஒவ்வொரு டோக்கனுக்கும் அவை ஒரு முழுமையான சுழற்சியை (full pass) மேற்கொள்ள வேண்டும். இதனால் உள்ளூர் பயன்பாட்டிற்கும் (local use) அல்லது நிகழ்நேரப் பணிகளுக்கும் (real-time tasks) இவை மெதுவாகச் செயல்படுகின்றன.
DiffusionGemma வித்தியாசமாகச் செயல்படுகிறது. இது 256 சீரற்ற டோக்கன்களின் (random tokens) தொகுப்புடன் தொடங்கி, பல சுழற்சிகளின் மூலம் அவற்றைச் செம்மைப்படுத்துகிறது.
இது ஏன் முக்கியமானது:
• வேகம்: இது ஒரு H100 GPU-வில் ஒரு வினாடிக்கு 1,000 டோக்கன்கள் வரை எட்ட முடியும். அதே வன்பொருளில் (hardware) வழக்கமான மாடல்கள் ஒரு வினாடிக்கு 70 டோக்கன்கள் மட்டுமே எட்டுகின்றன. • செயல்திறன்: 256 டோக்கன்களுக்கு 256 சுழற்சிகள் தேவைப்படுவதற்குப் பதிலாக, இதற்கு சுமார் 10 சுழற்சிகள் மட்டுமே தேவைப்படுகின்றன. • GPU பயன்பாடு: இது மெமரி பேண்ட்வித் (memory bandwidth) என்பதை விட கணக்கீட்டுத் திறனை (compute power) மிகவும் திறம்படப் பயன்படுத்துகிறது.
சவால்கள் (Trade-offs):
இந்த வேகத்திற்குத் தரத்தில் சில இழப்புகள் உள்ளன. வழக்கமான Gemma 4 26B உடன் ஒப்பிடும்போது, reasoning மற்றும் coding benchmarks ஆகியவற்றில் DiffusionGemma குறைந்த மதிப்பெண்களையே பெறுகிறது.
சிறந்த பயன்பாட்டுத் தேவைகள்:
- Code infilling.
- JSON schemas நிரப்புதல்.
- கட்டமைக்கப்பட்ட ஆவணங்களை முழுமையாக்குதல் (Structured document completion).
- குறைந்த தாமதமே (low latency) முன்னுரிமையாக இருக்கும் உள்ளூர் பணிகளுக்கு.
இதைப் பயன்படுத்துவதைத் தவிர்க்கவும்:
- பெரிய தொகுப்புகளைக் கொண்ட அதிகப்படியான இணைப்புகளைக் (high-concurrency) கையாளும் APIs.
- தரம் மட்டுமே முன்னுரிமையாக இருக்கும் பணிகளுக்கு.
- வார்த்தை வாரியாக உரையைத் தொடர்ந்து வழங்கும் (streaming text) பயன்பாடுகளுக்கு.
இந்த மாடல் Mixture-of-Experts (MoE) கட்டமைப்பைப் பயன்படுத்துகிறது. இதில் மொத்தம் 25.2B பாராமீட்டர்கள் (parameters) உள்ளன, ஆனால் ஒவ்வொரு நிலையிலும் (step) 3.8B செயலில் உள்ள பாராமீட்டர்களை மட்டுமே பயன்படுத்துகிறது. நீங்கள் 24GB VRAM கொண்ட RTX 4090-இல் இதன் 4-bit பதிப்பை இயக்க முடியும்.
இது ஒரு சோதனை முயற்சியிலான (experimental) மாடல். உங்களுக்கு மிக உயர்ந்த துல்லியம் தேவைப்பட்டால் வழக்கமான Gemma 4-ஐப் பயன்படுத்தவும். உள்ளூர் பயன்பாடுகளுக்கு அதீத வேகம் தேவைப்பட்டால் DiffusionGemma-வைப் பயன்படுத்தவும்.
Optional learning community: https://t.me/GyaanSetuAi