ট্রান্সফর্মার কীভাবে কাজ করে
ট্রান্সফর্মার এআই (AI)-এর মোড় ঘুরিয়ে দিয়েছে। তারা টেক্সট বা লেখা একবারে একটি করে শব্দ পড়ে যাওয়া বন্ধ করে দিয়েছে।
RNN-এর মতো পুরনো মডেলগুলো ধাপে ধাপে এগোত। ট্রান্সফর্মার একটি সিকোয়েন্সের (sequence) সমস্ত শব্দ একসাথে তুলনা করতে পারে। এই ডিজাইনই আধুনিক LLM-গুলোকে সম্ভব করে তুলেছে।
ট্রান্সফর্মার হলো অ্যাটেনশন (attention)-এর ওপর ভিত্তি করে তৈরি একটি নিউরাল নেটওয়ার্ক। এটি টোকেনগুলোর একটি সিকোয়েন্স দেখে এবং তারা কীভাবে একে অপরের সাথে সম্পর্কিত তা শেখে। এটি অত্যন্ত গুরুত্বপূর্ণ কারণ ভাষা প্রেক্ষাপটের (context) ওপর নির্ভর করে। একটি শব্দের অর্থ কেবল অন্য শব্দের সাথে তার সম্পর্কের মাধ্যমেই প্রকাশ পায়।
মূল প্রক্রিয়া:
- টোকেনগুলো এমবেডিংয়ে (embeddings) রূপান্তরিত হয়
- পজিশনাল ইনফরমেশন (Positional information) ক্রম যোগ করে
- সেলফ-অ্যাটেনশন (Self-attention) সম্পর্ক গণনা করে
- ফিড-ফরোয়ার্ড নেটওয়ার্ক ডেটা প্রসেস করে
- আউটপুট প্রেক্ষাপট অনুযায়ী রিপ্রেজেন্টেশন তৈরি করে
সেলফ-অ্যাটেনশন একটি টোকেনকে প্রশ্ন করতে সাহায্য করে: আমার অর্থের জন্য অন্য কোন টোকেনগুলো গুরুত্বপূর্ণ?
"The animal did not cross the street because it was tired" বাক্যটিতে, "it" শব্দটি প্রাণিটিকে (animal) নির্দেশ করছে। সেলফ-অ্যাটেনশন মডেলটিকে "it"-কে "street"-এর পরিবর্তে "animal"-এর সাথে যুক্ত করতে সাহায্য করে।
অ্যাটেনশন কীভাবে কাজ করে: প্রতিটি টোকেন তিনটি ভেক্টর তৈরি করে:
- Query: এই টোকেনটি কী খুঁজছে
- Key: প্রতিটি টোকেন কী প্রদান করছে
- Value: যে তথ্যটি উদ্ধার করতে হবে
মাল্টি-হেড অ্যাটেনশন (Multi-Head Attention) এই প্রক্রিয়াগুলোর অনেকগুলো একসাথে চালায়। একটি হেড হয়তো ব্যাকরণ ট্র্যাক করতে পারে, অন্যটি হয়তো অর্থ ট্র্যাক করতে পারে। এটি মডেলটিকে আরও বুদ্ধিমান করে তোলে।
আর্কিটেকচারের বিবর্তন: মূল ট্রান্সফর্মার একটি এনকোডার-ডিকোডার (Encoder-Decoder) কাঠামো ব্যবহার করত। GPT-এর মতো আধুনিক LLM-গুলো মূলত ডিকোডার-অনলি (decoder-only)। তারা পরবর্তী টোকেনটি অনুমান করে, সেটি সিকোয়েন্সে যোগ করে এবং পুনরায় একই কাজ করে।
আধুনিক LLM-গুলো দ্রুত এবং দক্ষ থাকার জন্য বেশ কিছু আপগ্রেড ব্যবহার করে:
- RoPE: মডেলটি শব্দের ক্রম কীভাবে বোঝে তা উন্নত করে
- RMSNorm: নরমালাইজেশন সহজ করে
- GQA: জেনারেশনের সময় মেমরি খরচ কমায়
- SwiGLU: নিউরাল লেয়ারগুলোকে শক্তিশালী করে
- MoE: বড় পরিসরে কাজ করার জন্য স্পার্স এক্সপার্টস (sparse experts) ব্যবহার করে
ট্রান্সফর্মার একটি সিকোয়েন্সকে সম্পর্কের একটি সেটে রূপান্তরের মাধ্যমে কাজ করে। তারা স্ট্যাকড ব্লকের (stacked blocks) মাধ্যমে এই সম্পর্কগুলোকে আরও নিখুঁত করে।
আপনি যদি এটি শিখতে চান, তবে এই ক্রম অনুসরণ করুন:
- অ্যাটেনশন মেকানিজম (Attention Mechanism)
- সেলফ-অ্যাটেনশন এবং QKV
- মাল্টি-হেড অ্যাটেনশন
- পজিশনাল এনকোডিং
- ডিকোডার আর্কিটেকচার
- KV Cache এবং এফিসিয়েন্ট অ্যাটেনশন
Source: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o
Optional learning community: https://t.me/GyaanSetuAi