শব্দের অর্থ কী তা সম্পর্কে GPT-র কোনো ধারণা নেই

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial২ সপ্তাহ আগে2min read

শব্দের অর্থ কী তা সম্পর্কে GPT-র কোনো ধারণা নেই

GPT শব্দের অর্থ কী তা জানে না

GPT ভাষা বোঝে না। এটি সংখ্যা বোঝে।

বেশিরভাগ মানুষ 'অ্যাটেনশন' (attention)-কে রূপকের মাধ্যমে ব্যাখ্যা করেন। তারা তীর চিহ্ন বা উজ্জ্বল সংযোগ ব্যবহার করেন। কিন্তু এটি এভাবে কাজ করে না।

আমি হাতে কলমে এর গণিত অনুসরণ করেছি। আমি প্রকৃত ম্যাট্রিক্স মাল্টিপ্লিকেশন (matrix multiplications) ব্যবহার করেছি। ট্রান্সফরমার (transformer) কীভাবে কাজ করে তার বাস্তবতা এখানে দেওয়া হলো।

প্রক্রিয়াটি শুরু হয় এমবেডিং (embeddings) দিয়ে। প্রতিটি শব্দ একটি এলোমেলো স্থানাঙ্ক (coordinate) পায়। উদাহরণস্বরূপ, "love" শব্দটি [0.10, 0.30] থেকে শুরু হতে পারে। শুরুতে এই সংখ্যাগুলোর কোনো অর্থ নেই।

তারপর অ্যাটেনশন ঘটে।

একটি বাক্য নিন: "The dog chased the cat because it was fast."

মডেলটিকে সিদ্ধান্ত নিতে হয় যে "it" শব্দটি কুকুর নাকি বিড়ালকে বোঝাচ্ছে। এটি অনুসরণ করার জন্য এর কাছে কোনো ব্যাকরণগত নিয়ম নেই। এটি কেবল পূর্ববর্তী শব্দগুলোর দিকে তাকায় এবং একটি স্কোর নির্ধারণ করে। এটি প্রশ্ন করে: "আমি এখন তোমার দিকে কতটা মনোযোগ দেব?"

এর ফলে একটি ওয়েট টেবিল (weight table) তৈরি হয়।

[I, love, pizza] সিকোয়েন্সের জন্য:

"love" হয়তো "I"-কে ৫১% মনোযোগ দেবে এবং ৪৯% নিজেকে দেবে।
"pizza" পুরো বিষয়টি দেখতে পায়। এটি তিনটি শব্দের মধ্যেই মনোযোগ ছড়িয়ে দেয়।

এটি কোনো রূপক নয়। "love" শব্দটি একটি ভেক্টর (vector) হিসেবে শুরু হয়। অ্যাটেনশনের পরে, এটি একটি নতুন ভেক্টরে পরিণত হয়। এটি স্পেসে (space) তার অবস্থান শারীরিকভাবে পরিবর্তন করে। এটি "I" থেকে ভেক্টরের একটি অংশ শোষণ করে নেয়।

"I"-এর প্রেক্ষাপটে "love" শব্দটি একা থাকা "love"-এর চেয়ে আলাদা একটি গাণিতিক বিন্দু। প্রেক্ষাপট (context) হলো কেবল ভেক্টর মিশ্রিত করার একটি গাণিতিক প্রক্রিয়া।

এটি কীভাবে শেখে? ক্ষুদ্র পরিবর্তনের মাধ্যমে।

যখন মডেলটি ভুল প্রেডিকশন করে, তখন ব্যাকপ্রোপাগেশন (backpropagation) ওয়েটগুলোকে সামান্য পরিবর্তন করে। এই পরিবর্তনগুলো খুব ছোট হয়। একটি ওয়েট হয়তো ০.৪০০ থেকে ০.৩৯৭-এ পরিবর্তিত হতে পারে।

০.০০৯-এর একটি ক্ষুদ্র পরিবর্তন একটি প্রেডিকশনকে ভুল থেকে সঠিক করে দিতে পারে। GPT-3 এটি ৩০০ বিলিয়ন বার করেছে।

এটি জিরো-শট জেনারালাইজেশন (zero-shot generalization) তৈরি করে। মডেলটি শেখে যে "You" এবং "I" গাণিতিকভাবে একই রকম। এটি "You"-এর পরে "love" প্রেডিক্ট করতে পারে, এমনকি যদি এটি আগে কখনো এই নির্দিষ্ট জোড়াটি না দেখে থাকে। এটি জ্যামিতিক নৈকট্যের (geometric proximity) কারণে ঘটে।

মডেলটি কখনোই কোনো নিয়ম শেখে না। এটি একটি দিক শেখে।

প্রতিটি ওয়েট হলো একটি ক্ষুদ্র কম্পাস সুঁইয়ের মতো। ট্রেনিং এই সুঁইগুলোকে এমনভাবে নির্দেশ করে যাতে জ্যামিতি কার্যকর হয়ে ওঠে। এখানে কোনো ব্যাকরণ বই নেই। এখানে কেবল গণিত আছে।

Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

Optional learning community: https://t.me/GyaanSetuAi

শব্দের অর্থ কী তা সম্পর্কে GPT-র কোনো ধারণা নেই

Continue reading

ট্রান্সফর্মার কীভাবে কাজ করে

GPT আপনার ভাবনার চেয়েও বেশি কিছু করতে পারে

এআই মডেলগুলো আসলে কীভাবে কাজ করে