Gemma 2 ఆర్కిటెక్చర్: తక్కువ మోడల్ పరిమాణంతో మెరుగైన పనితీరు

Translated for your language. Read the original.

AI-assisted draft.

మొన్న1min read

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: తక్కువ మోడల్‌తో ఎక్కువ పనితీరు

Google Gemma 2ని విడుదల చేసింది. అధిక పనితీరును పొందడానికి భారీ పరిమాణం అవసరం లేదని ఈ మోడల్ నిరూపిస్తుంది. దీనిలోని 27B మోడల్, తన పరిమాణం కంటే రెట్టింపు ఉన్న మోడళ్లతో పోటీ పడుతుంది.

దీని రహస్యం దాని ఆర్కిటెక్చర్‌లో ఉంది.

Gemma 2 హైబ్రిడ్ అటెన్షన్ (hybrid attention) పద్ధతిని ఉపయోగిస్తుంది. సాధారణ అటెన్షన్ నెమ్మదిగా మరియు భారంగా ఉంటుంది. Gemma 2 రెండు రకాల అటెన్షన్ల మధ్య మారుతూ ఈ సమస్యను పరిష్కరిస్తుంది:

• Local sliding window attention: ఇది 4096 టోకెన్ విండోపై దృష్టి పెడుతుంది. ఇది తక్షణ సందర్భాన్ని (immediate context) వేగంగా హ్యాండిల్ చేస్తుంది. • Global attention: ఇది పూర్తి 8192 టోకెన్ సందర్భాన్ని పరిశీలిస్తుంది.

ఈ మిశ్రమం అధిక కంప్యూటేషనల్ ఖర్చు లేకుండా మీకు సామర్థ్యాన్ని మరియు లోతైన సందర్భాన్ని అందిస్తుంది.

ఈ మోడళ్లు Grouped-Query Attention (GQA)ని కూడా ఉపయోగిస్తాయి. ఇది బహుళ క్వెరీ హెడ్స్ (query heads) ఒకే కీ మరియు వాల్యూ సెట్‌ను పంచుకోవడానికి అనుమతిస్తుంది. ఇది మెమరీ వినియోగాన్ని తగ్గిస్తుంది మరియు టెక్స్ట్ జనరేషన్‌ను వేగవంతం చేస్తుంది. 9B మరియు 27B మోడళ్లు GQAని ఉపయోగిస్తాయి. 2B మోడల్ Multi-Query Attention (MQA) అని పిలువబడే మరింత వేగవంతమైన వెర్షన్‌ను ఉపయోగిస్తుంది.

శిక్షణ పద్ధతులు కూడా మారాయి. 2B మరియు 9B మోడళ్లు knowledge distillationని ఉపయోగించాయి. అవి ఒక పెద్ద టీచర్ మోడల్ నుండి నేర్చుకున్నాయి. ఇది సాధారణ శిక్షణ కంటే సంక్లిష్టమైన ప్యాటర్న్‌లను మెరుగ్గా అర్థం చేసుకోవడానికి సహాయపడుతుంది.

ఇది మీకు ఏమి అర్థం చేయవచ్చు:

• తక్కువ ఖర్చులు: మీరు Gemma 2 27Bని ఒకే NVIDIA H100 GPUపై రన్ చేయవచ్చు. • మెరుగైన యాక్సెస్: చిన్న మోడళ్లు కన్స్యూమర్ హార్డ్‌వేర్ మరియు మొబైల్ పరికరాలపై పనిచేస్తాయి. • సులభమైన టెస్టింగ్: మీరు Ollama ఉపయోగించి instruction-tuned మోడళ్లను లోకల్‌గా రన్ చేయవచ్చు.

పరిశ్రమ మారుతోంది. మనం కేవలం ఎక్కువ పారామీటర్లను జోడించడం నుండి దూరంగా వెళ్తున్నాము. ఇప్పుడు దృష్టి పారామీటర్ల యొక్క తెలివితేటలపై (intelligence per parameter) ఉంది. ఇది అధిక నాణ్యత కలిగిన AIని అందరికీ మరింత స్థిరంగా మరియు ఆచరణాత్మకంగా మారుస్తుంది.

మూలం: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

ఐచ్ఛిక అభ్యాస కమ్యూనిటీ: https://t.me/GyaanSetuAi

Gemma 2 ఆర్కిటెక్చర్: తక్కువ మోడల్ పరిమాణంతో మెరుగైన పనితీరు

Continue reading

𝗚𝗼𝗼𝗴𝗹𝗲 𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕: 𝗔𝗜 𝗢𝗻 𝗬𝗼𝘂𝗿 𝗗𝗲𝘃𝗶𝗰𝗲

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

ఇకపై ఎవరికీ మీ 70B పారామీటర్ మోడల్ అవసరం లేదు