GPT ليس لديه أدنى فكرة عن معنى الكلمات
GPT لا يفهم اللغة. إنه يفهم الأرقام.
يشرح معظم الناس آلية الانتباه (attention) باستخدام الاستعارات؛ حيث يستخدمون الأسهم أو الروابط المتوهجة. لكن هذه ليست الطريقة التي يعمل بها الأمر.
لقد تتبعت الرياضيات يدويًا، واستخدمت عمليات ضرب المصفوفات الفعلية. إليكم حقيقة كيفية عمل الـ transformer.
تبدأ العملية بالتمثيلات الرقمية (embeddings). تحصل كل كلمة على إحداثيات عشوائية. على سبيل المثال، قد تبدأ كلمة "love" عند [0.10, 0.30]. هذه الأرقام لا تعني شيئًا في البداية.
ثم تحدث عملية الانتباه.
لنأخذ هذه الجملة: "The dog chased the cat because it was fast."
يجب على النموذج أن يقرر ما إذا كانت كلمة "it" تعود على الكلب أم القطة. ليس لديه قواعد نحوية ليتبعها، بل ينظر فقط إلى الكلمات السابقة ويخصص درجة (score). يسأل نفسه: "ما مقدار الانتباه الذي يجب أن أوليه لك الآن؟"
ينتج عن ذلك جدول أوزان (weight table).
بالنسبة للتسلسل [I, love, pizza]:
- قد تمنح "love" انتباهاً بنسبة 51% لـ "I" و49% لنفسها.
- يمكن لـ "pizza" رؤية الصورة الكاملة، حيث توزع الانتباه على الكلمات الثلاث جميعها.
هذه ليست استعارة. تبدأ كلمة "love" كمتجه (vector) واحد، وبعد عملية الانتباه، تصبح متجهًا جديدًا. إنها تغير موقعها في الفضاء فعليًا، حيث تمتص جزءًا من المتجه الخاص بكلمة "I".
كلمة "love" في سياق "I" هي نقطة رياضية مختلفة عن كلمة "love" عندما تقف بمفردها. السياق ليس سوى رياضيات تدمج المتجهات.
كيف يتعلم؟ من خلال إزاحات ضئيلة.
عندما يتوقع النموذج بشكل خاطئ، تقوم عملية الانتشار العكسي (backpropagation) بتحريك الأوزان قليلاً. هذه التغييرات تكون صغيرة؛ فقد ينتقل الوزن من 0.400 إلى 0.397.
تغيير ضئيل واحد بمقدار 0.009 يمكن أن يقلب التوقع من خاطئ إلى صحيح. وقد فعل GPT-3 ذلك 300 مليار مرة.
هذا يخلق قدرة على التعميم من المحاولة الأولى (zero-shot generalization). يتعلم النموذج أن "You" و "I" متشابهان رياضيًا، فيتوقع كلمة "love" بعد "You" حتى لو لم يرَ هذا الزوج المحدد من قبل. يفعل ذلك بسبب التقارب الهندسي.
النموذج لا يتعلم قاعدة أبدًا، بل يتعلم اتجاهًا.
كل وزن هو بمثابة إبرة بوصلة صغيرة. التدريب يوجه هذه الإبر بحيث تصبح الهندسة مفيدة. لا يوجد كتاب قواعد، هناك رياضيات فقط.
Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li
Optional learning community: https://t.me/GyaanSetuAi
