𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: ઓછા મોડેલ દ્વારા વધુ પ્રદર્શન
Google એ Gemma 2 રિલીઝ કર્યું છે. આ મોડેલ સાબિત કરે છે કે ઉચ્ચ પ્રદર્શન મેળવવા માટે તમારે વિશાળ કદની જરૂર નથી. 27B મોડેલ તેનાથી બમણા કદના મોડેલો સાથે સ્પર્ધા કરે છે.
તેનું રહસ્ય આર્કિટેક્ચરમાં રહેલું છે.
Gemma 2 હાઇબ્રિડ એટેન્શન પદ્ધતિનો ઉપયોગ કરે છે. સ્ટાન્ડર્ડ એટેન્શન ધીમું અને ભારે હોય છે. Gemma 2 એટેન્શનના બે પ્રકારો વચ્ચે સ્વિચ કરીને આ સમસ્યાનું નિરાકરણ લાવે છે:
• Local sliding window attention: આ 4096 ટોકન વિન્ડો પર ધ્યાન કેન્દ્રિત કરે છે. તે તાત્કાલિક સંદર્ભને ઝડપથી હેન્ડલ કરે છે. • Global attention: આ સંપૂર્ણ 8192 ટોકન સંદર્ભને જુએ છે.
આ મિશ્રણ તમને ઊંચી કમ્પ્યુટેશનલ કિંમત વિના કાર્યક્ષમતા અને ઊંડો સંદર્ભ આપે છે.
આ મોડેલ્સ Grouped-Query Attention (GQA) નો પણ ઉપયોગ કરે છે. આનાથી મલ્ટિપલ ક્વેરી હેડ્સ એક જ કી (key) અને વેલ્યુ (value) સેટ શેર કરી શકે છે. આ મેમરીનો વપરાશ ઘટાડે છે અને ટેક્સ્ટ જનરેશનની ઝડપ વધારે છે. 9B અને 27B મોડેલ્સ GQA નો ઉપયોગ કરે છે. 2B મોડેલ Multi-Query Attention (MQA) નામનું વધુ ઝડપી વર્ઝન વાપરે છે.
તાલીમ પદ્ધતિઓ પણ બદલાઈ ગઈ છે. 2B અને 9B મોડેલ્સમાં knowledge distillation નો ઉપયોગ કરવામાં આવ્યો હતો. તેઓએ મોટા ટીચર મોડેલ પાસેથી શીખ્યું છે. આ તેમને સ્ટાન્ડર્ડ ટ્રેનિંગ કરતા જટિલ પેટર્નને વધુ સારી રીતે સમજવામાં મદદ કરે છે.
તમારા માટે આનો અર્થ શું છે:
• ઓછો ખર્ચ: તમે Gemma 2 27B ને સિંગલ NVIDIA H100 GPU પર ચલાવી શકો છો. • વધુ સારી સુલભતા: નાના મોડેલ્સ કન્ઝ્યુમર હાર્ડવેર અને મોબાઈલ ઉપકરણો પર કામ કરે છે. • સરળ પરીક્ષણ: તમે Ollama નો ઉપયોગ કરીને ઇન્સ્ટ્રક્શન-ટ્યુન કરેલા મોડેલ્સને લોકલી ચલાવી શકો છો.
ઉદ્યોગ બદલાઈ રહ્યો છે. આપણે માત્ર વધુ પેરામીટર્સ ઉમેરવાથી દૂર જઈ રહ્યા છીએ. હવે ધ્યાન 'ઇન્ટેલિજન્સ પર પેરામીટર' (intelligence per parameter) પર છે. આ ઉચ્ચ-ગુણવત્તાવાળા AI ને દરેક માટે વધુ ટકાઉ અને વ્યવહારુ બનાવે છે.
સ્ત્રોત: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi