DiffusionGemma: પ્રતિ સેકન્ડ ૧,૦૦૦ ટોકન્સ

Translated for your language. Read the original.

AI-assisted draft.

4 દિવસ પહેલાં2min read

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: ૧,૦૦૦ 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

મોટાભાગના લેંગ્વેજ મોડલ્સ એક સમયે એક શબ્દ પર કામ કરે છે. તેઓ ડાબેથી જમણે આગળ વધે છે. આના કારણે ઝડપ પર મર્યાદા આવે છે કારણ કે મોડલને પછીનો શબ્દ શરૂ કરતા પહેલા દરેક શબ્દ પૂરો થવાની રાહ જોવી પડે છે.

Google DeepMind એ DiffusionGemma સાથે આ બદલી નાખ્યું છે.

ક્રમિક લેખન (sequential writing) ને બદલે, તે denoising પ્રક્રિયાનો ઉપયોગ કરે છે. તે ૨૫૬ ટોકન્સ સુધીના બ્લોક લે છે અને એકસાથે તે બધાને શુદ્ધ કરે છે. આ અભિગમ એક સિંગલ NVIDIA H100 પર પ્રતિ સેકન્ડ ૧,૦૦૦ થી વધુ ટોકન્સ મેળવે છે. તે પ્રમાણભૂત મોડલ્સ કરતા ચાર ગણું ઝડપી છે.

તે કેવી રીતે કામ કરે છે:

મોડલ પ્લેસહોલ્ડર ટોકન્સના બ્લોક સાથે શરૂ થાય છે.
તે આ પ્લેસહોલ્ડર્સને સાફ કરવા માટે અનેક પાસ (passes) ચલાવે છે.
બ્લોકમાં દરેક ટોકન એકસાથે અન્ય દરેક ટોકનને જુએ છે.
આ bidirectional વ્યુ મોડલને બંને બાજુથી સંદર્ભ (context) સમજવામાં મદદ કરે છે.

હાર્ડવેર પર્ફોર્મન્સ:

• NVIDIA H100: ૧,૦૦૦+ ટોકન્સ/સેકન્ડ • NVIDIA DGX Station: ૨,૦૦૦ ટોકન્સ/સેકન્ડ સુધીમાં • GeForce RTX 5090: ~૭૦૦ ટોકન્સ/સેકન્ડ • VRAM જરૂરિયાત: quantized હોવા પર ~૧૮GB

તેનો ઉપયોગ ક્યાં કરવો:

DiffusionGemma લોકલ સેટિંગ્સમાં શ્રેષ્ઠ કામગીરી કરે છે. ક્લાઉડમાં, કંપનીઓ કાર્યક્ષમ રહેવા માટે ઘણા વપરાશકર્તાઓને એકસાથે બેચ (batch) કરે છે. તમારા પોતાના કમ્પ્યુટર પર, શબ્દો વચ્ચે GPU ઘણીવાર ખાલી (idle) બેસી રહે છે. DiffusionGemma મેમરી બોટલનેક્સને (memory bottlenecks) સીધા કમ્પ્યુટિંગ કાર્યોમાં ફેરવીને આ સમસ્યાનું નિરાકરણ લાવે છે.

આ માટે તેનો ઉપયોગ કરો:

Code infilling: ફંક્શનની વચ્ચે કોડ ઉમેરવો.
Text editing: ફકરાની અંદર વાક્ય બદલવું.
Constraint tasks: કોયડાઓ અથવા ગણિત ઉકેલવા જ્યાં આખો બ્લોક એકબીજા સાથે સુસંગત હોવો જોઈએ.

આમાં ગુણવત્તા સાથે સમજૂતી (trade-off) કરવી પડે છે. બેન્ચમાર્ક દર્શાવે છે કે reasoning અને coding માં DiffusionGemma સ્કોર પ્રમાણભૂત Gemma 4 કરતા ઓછો છે. ઈમેજ કરતા ભાષાને diffuse કરવી વધુ મુશ્કેલ છે કારણ કે એક ખોટો શબ્દ આખું વાક્ય બગાડી શકે છે.

અંતિમ નિર્ણય:

જો તમારે લોકલ હાર્ડવેર પર ઝડપની જરૂર હોય તો DiffusionGemma નો ઉપયોગ કરો. જો તમારે ઉચ્ચ ચોકસાઈ અને ઊંડું reasoning જોઈતું હોય તો પ્રમાણભૂત Gemma 4 નો ઉપયોગ કરો.

સ્ત્રોત: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi

DiffusionGemma: પ્રતિ સેકન્ડ ૧,૦૦૦ ટોકન્સ

Continue reading

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

𝗛𝗼𝗴𝘄𝗶𝗹𝗱! 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗟𝗟𝗠 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗚𝗼𝗼𝗴𝗹𝗲 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗔𝗜 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗙𝗼𝗿𝗲𝘃𝗲𝗿

GPT તમે વિચારતા હોવ તેના કરતાં પણ વધુ કરી શકે છે