𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

Translated for your language. Read the original.

AI-assisted draft.

গত পরশু1min read

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹 𝘀𝗲 𝗔𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲

Google Gemma 2 রিলিজ করেছে। এই মডেলটি প্রমাণ করে যে উচ্চ পারফরম্যান্স পেতে আপনার বিশাল আকারের মডেলের প্রয়োজন নেই। এর 27B মডেলটি তার আকারের দ্বিগুণ বড় মডেলগুলোর সাথে প্রতিযোগিতা করতে সক্ষম।

এর রহস্য লুকিয়ে আছে এর আর্কিটেকচারে।

Gemma 2 একটি হাইব্রিড অ্যাটেনশন (hybrid attention) পদ্ধতি ব্যবহার করে। স্ট্যান্ডার্ড অ্যাটেনশন ধীরগতির এবং ভারী। Gemma 2 দুই ধরনের অ্যাটেনশনের মধ্যে সুইচ করার মাধ্যমে এই সমস্যার সমাধান করে:

• Local sliding window attention: এটি একটি 4096 টোকেন উইন্ডোর ওপর ফোকাস করে। এটি দ্রুত তাৎক্ষণিক কনটেক্সট হ্যান্ডেল করতে পারে। • Global attention: এটি সম্পূর্ণ 8192 টোকেন কনটেক্সটের দিকে নজর দেয়।

এই মিশ্রণটি আপনাকে উচ্চ কম্পিউটেশনাল খরচ ছাড়াই দক্ষতা এবং গভীর কনটেক্সট প্রদান করে।

মডেলগুলো Grouped-Query Attention (GQA) ব্যবহার করে। এটি একাধিক কুয়েরি হেডকে (query heads) একটি কি (key) এবং ভ্যালু (value) সেট শেয়ার করতে দেয়। এটি মেমরি ব্যবহার কমায় এবং টেক্সট জেনারেশন দ্রুত করে। 9B এবং 27B মডেলগুলো GQA ব্যবহার করে। 2B মডেলটি আরও দ্রুত একটি সংস্করণ ব্যবহার করে যাকে Multi-Query Attention (MQA) বলা হয়।

ট্রেনিং পদ্ধতিও পরিবর্তিত হয়েছে। 2B এবং 9B মডেলগুলো knowledge distillation ব্যবহার করেছে। তারা একটি বড় টিচার মডেল (teacher model) থেকে শিখেছে। এটি তাদের স্ট্যান্ডার্ড ট্রেনিংয়ের চেয়ে জটিল প্যাটার্নগুলো আরও ভালোভাবে বুঝতে সাহায্য করে।

আপনার জন্য এর অর্থ কী:

• কম খরচ: আপনি একটি মাত্র NVIDIA H100 GPU-তে Gemma 2 27B চালাতে পারেন। • উন্নত অ্যাক্সেস: ছোট মডেলগুলো কনজিউমার হার্ডওয়্যার এবং মোবাইল ডিভাইসে কাজ করে। • সহজ টেস্টিং: আপনি Ollama ব্যবহার করে লোকালি instruction-tuned মডেলগুলো চালাতে পারেন।

ইন্ডাস্ট্রি এখন পরিবর্তিত হচ্ছে। আমরা শুধু প্যারামিটার বাড়ানোর প্রবণতা থেকে সরে আসছি। এখন ফোকাস হলো প্রতি প্যারামিটারে বুদ্ধিমত্তা (intelligence per parameter) বাড়ানো। এটি উচ্চ-মানের AI-কে সবার জন্য আরও টেকসই এবং ব্যবহারিক করে তোলে।

উৎস: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

Continue reading

𝗚𝗼𝗼𝗴𝗹𝗲 𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕: 𝗔𝗜 𝗢𝗻 𝗬𝗼𝘂𝗿 𝗗𝗲𝘃𝗶𝗰𝗲

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

DiffusionGemma: Google-এর ওপেন AI টুইস্ট

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

আপনার ৭০বি (70B) প্যারামিটার মডেল এখন আর কেউ চায় না