𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: સમાંતર ટેક્સ્ટ જનરેશન (Parallel Text Generation)
Google DeepMind એ DiffusionGemma 26B રિલીઝ કર્યું છે. આ મોડેલ પ્રમાણભૂત autoregressive પદ્ધતિને બદલે discrete diffusion નો ઉપયોગ કરે છે.
GPT અથવા Llama જેવા મોટાભાગના મોડેલ્સ એક સમયે એક ટોકન દ્વારા ટેક્સ્ટ જનરેટ કરે છે. દરેક સિંગલ ટોકન માટે તેમણે સંપૂર્ણ પાસ (pass) ચલાવવો પડે છે. આના કારણે સ્થાનિક ઉપયોગ અથવા રીઅલ-ટાઇમ કાર્યો માટે તેઓ ધીમા બની જાય છે.
DiffusionGemma અલગ રીતે કામ કરે છે. તે 256 રેન્ડમ ટોકન્સના બ્લોક સાથે શરૂ થાય છે અને મલ્ટિપલ પાસ દ્વારા તેને રિફાઇન કરે છે.
આ શા માટે મહત્વનું છે:
• ઝડપ: તે H100 GPU પર સેકન્ડ દીઠ 1,000 ટોકન્સ સુધી પહોંચી શકે છે. સમાન હાર્ડવેર પર પ્રમાણભૂત મોડેલ્સ માત્ર સેકન્ડ દીઠ 70 ટોકન્સ સુધી જ પહોંચી શકે છે. • કાર્યક્ષમતા: 256 ટોકન્સ માટે 256 પાસને બદલે, તેને માત્ર આશરે 10 પાસની જરૂર પડે છે. • GPU વપરાશ: તે મેમરી બેન્ડવિડ્થ કરતા કમ્પ્યુટ પાવરનો વધુ અસરકારક રીતે ઉપયોગ કરે છે.
ટ્રેડ-ઓફ્સ (The trade-offs):
ઝડપની સાથે ગુણવત્તામાં ઘટાડો થાય છે. પ્રમાણભૂત Gemma 4 26B ની સરખામણીમાં DiffusionGemma રીઝનિંગ અને કોડિંગ બેન્ચમાર્ક પર ઓછું સ્કોર કરે છે.
શ્રેષ્ઠ ઉપયોગના કિસ્સાઓ:
- કોડ ઇનફિલિંગ (Code infilling).
- JSON સ્કીમા ભરવા માટે.
- સ્ટ્રક્ચર્ડ ડોક્યુમેન્ટ કમ્પ્લીશન.
- સ્થાનિક કાર્યો જ્યાં લો લેટન્સી (low latency) પ્રાથમિકતા હોય.
આ માટે તેનો ઉપયોગ કરવાનું ટાળો:
- વિશાળ બેચ સાથેના હાઈ-કન્કરન્સી APIs.
- એવા કાર્યો જ્યાં ગુણવત્તા જ એકમાત્ર પ્રાથમિકતા હોય.
- એવા એપ્લિકેશન્સ જેને શબ્દ દ્વારા શબ્દ ટેક્સ્ટ સ્ટ્રીમિંગની જરૂર હોય.
આ મોડેલ Mixture-of-Experts (MoE) આર્કિટેક્ચરનો ઉપયોગ કરે છે. તેમાં કુલ 25.2B પેરામીટર્સ છે પરંતુ દરેક સ્ટેપ પર માત્ર 3.8B એક્ટિવ પેરામીટર્સનો ઉપયોગ થાય છે. તમે 24GB VRAM ધરાવતા RTX 4090 પર તેનું 4-bit વર્ઝન ચલાવી શકો છો.
તે એક પ્રાયોગિક મોડેલ છે. જો તમારે ઉચ્ચતમ ચોકસાઈની જરૂર હોય તો પ્રમાણભૂત Gemma 4 નો ઉપયોગ કરો. જો તમારે સ્થાનિક એપ્લિકેશન્સ માટે અત્યંત ઝડપની જરૂર હોય તો DiffusionGemma નો ઉપયોગ કરો.
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi