GPT کو معلوم ہی نہیں کہ الفاظ کے معنی کیا ہیں

GPT زبان نہیں سمجھتا۔ یہ نمبروں کو سمجھتا ہے۔

زیادہ تر لوگ attention کی وضاحت استعاروں سے کرتے ہیں۔ وہ تیر کے نشانات یا چمکتے ہوئے رابطوں کا استعمال کرتے ہیں۔ یہ اس طرح کام نہیں کرتا۔

میں نے ریاضی کو ہاتھ سے ٹریس کیا۔ میں نے اصل matrix multiplications کا استعمال کیا۔ یہاں حقیقت پیش ہے کہ ایک transformer کیسے کام کرتا ہے۔

یہ عمل embeddings سے شروع ہوتا ہے۔ ہر لفظ کو ایک رینڈم coordinate ملتا ہے۔ مثال کے طور پر، لفظ "love" [0.10, 0.30] سے شروع ہو سکتا ہے۔ شروع میں ان نمبروں کا کوئی مطلب نہیں ہوتا۔

پھر attention کا عمل ہوتا ہے۔

یہ جملہ لیں: "The dog chased the cat because it was fast."

ماڈل کو یہ فیصلہ کرنا ہوتا ہے کہ "it" سے مراد کتا ہے یا بلی۔ اس کے پاس پیروی کرنے کے لیے گرامر کے کوئی اصول نہیں ہیں۔ یہ صرف پچھلے الفاظ کو دیکھتا ہے اور ایک اسکور تفویض کرتا ہے۔ یہ پوچھتا ہے: "مجھے اس وقت آپ پر کتنا دھیان دینا چاہیے؟"

اس کے نتیجے میں ایک weight table بنتا ہے۔

ترتیب [I, love, pizza] کے لیے:

  • "love" شاید "I" کو 51% attention دے اور 49% خود کو۔
  • "pizza" پورے منظر نامے کو دیکھ سکتا ہے۔ یہ تمام تینوں الفاظ پر attention پھیلا دیتا ہے۔

یہ کوئی استعارہ نہیں ہے۔ لفظ "love" ایک vector کے طور پر شروع ہوتا ہے۔ attention کے بعد، یہ ایک نیا vector بن جاتا ہے۔ یہ خلا (space) میں اپنی پوزیشن جسمانی طور پر تبدیل کر لیتا ہے۔ یہ "I" سے vector کا کچھ حصہ جذب کر لیتا ہے۔

"I" کے سیاق و سباق میں لفظ "love" ایک الگ ریاضیاتی نقطہ ہے، بجائے اس کے کہ "love" اکیلا ہو۔ سیاق و سباق محض vectors کو ملانے والی ریاضی ہے۔

یہ کیسے سیکھتا ہے؟ معمولی تبدیلیوں کے ذریعے ۔

جب ماڈل غلط پیش گوئی کرتا ہے، تو backpropagation weights کو تھوڑا سا ہٹاتا ہے۔ یہ تبدیلیاں چھوٹی ہوتی ہیں۔ ایک weight 0.400 سے 0.397 تک منتقل ہو سکتا ہے۔

0.009 کی ایک چھوٹی سی تبدیلی پیش گوئی کو غلط سے صحیح میں بدل سکتی ہے۔ GPT-3 نے یہ 300 ارب بار کیا۔

یہ zero-shot generalization پیدا کرتا ہے۔ ماڈل سیکھتا ہے کہ "You" اور "I" ریاضیاتی طور پر ایک جیسے ہیں۔ یہ "You" کے بعد "love" کی پیش گوئی کرتا ہے، چاہے اس نے یہ مخصوص جوڑا پہلے کبھی نہ دیکھا ہو۔ یہ geometric proximity کی وجہ سے کرتا ہے۔

ماڈل کبھی کوئی اصول نہیں سیکھتا۔ یہ ایک سمت سیکھتا ہے۔

ہر weight ایک چھوٹی سی قطب نما کی سوئی ہے۔ Training ان سوئیوں کو اس طرح سمت دیتی ہے کہ geometry مفید ہو جائے۔ وہاں کوئی گرامر کی کتاب نہیں ہے۔ وہاں صرف ریاضی ہے۔

Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

Optional learning community: https://t.me/GyaanSetuAi