GPT শব্দের অর্থ কী তা জানে না
GPT ভাষা বোঝে না। এটি সংখ্যা বোঝে।
বেশিরভাগ মানুষ 'অ্যাটেনশন' (attention)-কে রূপকের মাধ্যমে ব্যাখ্যা করেন। তারা তীর চিহ্ন বা উজ্জ্বল সংযোগ ব্যবহার করেন। কিন্তু এটি এভাবে কাজ করে না।
আমি হাতে কলমে এর গণিত অনুসরণ করেছি। আমি প্রকৃত ম্যাট্রিক্স মাল্টিপ্লিকেশন (matrix multiplications) ব্যবহার করেছি। ট্রান্সফরমার (transformer) কীভাবে কাজ করে তার বাস্তবতা এখানে দেওয়া হলো।
প্রক্রিয়াটি শুরু হয় এমবেডিং (embeddings) দিয়ে। প্রতিটি শব্দ একটি এলোমেলো স্থানাঙ্ক (coordinate) পায়। উদাহরণস্বরূপ, "love" শব্দটি [0.10, 0.30] থেকে শুরু হতে পারে। শুরুতে এই সংখ্যাগুলোর কোনো অর্থ নেই।
তারপর অ্যাটেনশন ঘটে।
একটি বাক্য নিন: "The dog chased the cat because it was fast."
মডেলটিকে সিদ্ধান্ত নিতে হয় যে "it" শব্দটি কুকুর নাকি বিড়ালকে বোঝাচ্ছে। এটি অনুসরণ করার জন্য এর কাছে কোনো ব্যাকরণগত নিয়ম নেই। এটি কেবল পূর্ববর্তী শব্দগুলোর দিকে তাকায় এবং একটি স্কোর নির্ধারণ করে। এটি প্রশ্ন করে: "আমি এখন তোমার দিকে কতটা মনোযোগ দেব?"
এর ফলে একটি ওয়েট টেবিল (weight table) তৈরি হয়।
[I, love, pizza] সিকোয়েন্সের জন্য:
- "love" হয়তো "I"-কে ৫১% মনোযোগ দেবে এবং ৪৯% নিজেকে দেবে।
- "pizza" পুরো বিষয়টি দেখতে পায়। এটি তিনটি শব্দের মধ্যেই মনোযোগ ছড়িয়ে দেয়।
এটি কোনো রূপক নয়। "love" শব্দটি একটি ভেক্টর (vector) হিসেবে শুরু হয়। অ্যাটেনশনের পরে, এটি একটি নতুন ভেক্টরে পরিণত হয়। এটি স্পেসে (space) তার অবস্থান শারীরিকভাবে পরিবর্তন করে। এটি "I" থেকে ভেক্টরের একটি অংশ শোষণ করে নেয়।
"I"-এর প্রেক্ষাপটে "love" শব্দটি একা থাকা "love"-এর চেয়ে আলাদা একটি গাণিতিক বিন্দু। প্রেক্ষাপট (context) হলো কেবল ভেক্টর মিশ্রিত করার একটি গাণিতিক প্রক্রিয়া।
এটি কীভাবে শেখে? ক্ষুদ্র পরিবর্তনের মাধ্যমে।
যখন মডেলটি ভুল প্রেডিকশন করে, তখন ব্যাকপ্রোপাগেশন (backpropagation) ওয়েটগুলোকে সামান্য পরিবর্তন করে। এই পরিবর্তনগুলো খুব ছোট হয়। একটি ওয়েট হয়তো ০.৪০০ থেকে ০.৩৯৭-এ পরিবর্তিত হতে পারে।
০.০০৯-এর একটি ক্ষুদ্র পরিবর্তন একটি প্রেডিকশনকে ভুল থেকে সঠিক করে দিতে পারে। GPT-3 এটি ৩০০ বিলিয়ন বার করেছে।
এটি জিরো-শট জেনারালাইজেশন (zero-shot generalization) তৈরি করে। মডেলটি শেখে যে "You" এবং "I" গাণিতিকভাবে একই রকম। এটি "You"-এর পরে "love" প্রেডিক্ট করতে পারে, এমনকি যদি এটি আগে কখনো এই নির্দিষ্ট জোড়াটি না দেখে থাকে। এটি জ্যামিতিক নৈকট্যের (geometric proximity) কারণে ঘটে।
মডেলটি কখনোই কোনো নিয়ম শেখে না। এটি একটি দিক শেখে।
প্রতিটি ওয়েট হলো একটি ক্ষুদ্র কম্পাস সুঁইয়ের মতো। ট্রেনিং এই সুঁইগুলোকে এমনভাবে নির্দেশ করে যাতে জ্যামিতি কার্যকর হয়ে ওঠে। এখানে কোনো ব্যাকরণ বই নেই। এখানে কেবল গণিত আছে।
Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li
Optional learning community: https://t.me/GyaanSetuAi
