GPT ला शब्दांचा अर्थ माहित नाही

GPT ला भाषा समजत नाही. त्याला अंक समजतात.

बहुतेक लोक 'अटेंशन' (attention) मेटाफरच्या (रूपकांद्वारे) माध्यमातून स्पष्ट करतात. ते बाण किंवा चमकणारे कनेक्शन वापरतात. पण ते काम करत नाही.

मी स्वतः हाताने गणिती प्रक्रिया तपासून पाहिली. मी प्रत्यक्ष मॅट्रिक्स मल्टिप्लिकेशनचा (matrix multiplications) वापर केला. ट्रान्सफॉर्मर (transformer) नेमका कसा काम करतो, याचे वास्तव खालीलप्रमाणे आहे.

ही प्रक्रिया 'एम्बेडिंग्स' (embeddings) पासून सुरू होते. प्रत्येक शब्दाला एक यादृच्छिक (random) कोऑर्डिनेट दिले जाते. उदाहरणार्थ, "love" या शब्दाची सुरुवात [0.10, 0.30] वर होऊ शकते. सुरुवातीला या अंकांना काहीही अर्थ नसतो.

त्यानंतर 'अटेंशन' (attention) प्रक्रिया घडते.

हे वाक्य घ्या: "The dog chased the cat because it was fast."

मॉडेलला हे ठरवावे लागते की "it" म्हणजे कुत्रा आहे की मांजर. त्याला पाळण्यासाठी कोणतेही व्याकरण नियम नाहीत. ते फक्त मागील शब्दांकडे पाहते आणि एक स्कोअर (score) देते. ते विचारते: "मी आता तुझ्याकडे किती लक्ष (attention) दिले पाहिजे?"

यामुळे एक 'वेट टेबल' (weight table) तयार होते.

[I, love, pizza] या क्रमासाठी:

  • "love" कदाचित "I" ला ५१% अटेंशन देईल आणि स्वतःला ४९% देईल.
  • "pizza" संपूर्ण चित्र पाहू शकते. ते तिन्ही शब्दांवर अटेंशन पसरवते.

हे कोणतेही रूपक नाही. "love" हा शब्द एका वेक्टर (vector) म्हणून सुरू होतो. अटेंशननंतर, तो एक नवीन वेक्टर बनतो. तो अवकाशातील (space) आपली स्थिती प्रत्यक्षपणे बदलतो. तो "I" कडून वेक्टरचा काही भाग शोषून घेतो.

"I" च्या संदर्भात "love" हा शब्द, एकटा असलेल्या "love" पेक्षा वेगळा गणिती बिंदू असतो. संदर्भ म्हणजे केवळ वेक्टर्सचे मिश्रण करणारे गणित आहे.

ते कसे शिकते? अगदी सूक्ष्म बदलांद्वारे.

जेव्हा मॉडेल चुकीचा अंदाज वर्तवते, तेव्हा 'बॅकप्रोपॅगेशन' (backpropagation) वेट्सना (weights) थोडे हलवते. हे बदल खूप लहान असतात. एखादे वेट ०.४०० वरून ०.३९७ वर जाऊ शकते.

०.००९ चा एक छोटासा बदल अंदाज चुकीच्याकडून बरोबरकडे वळवू शकतो. GPT-3 ने हे ३०० अब्ज वेळा केले.

यामुळे 'झिरो-शॉट जनरलायझेशन' (zero-shot generalization) तयार होते. "You" आणि "I" गणितीयदृष्ट्या समान आहेत हे मॉडेल शिकते. जर त्याने हे विशिष्ट जोडी कधी पाहिली नसेल, तरीही तो "You" नंतर "love" चा अंदाज वर्तवतो. हे भूमितीय जवळीकीमुळे (geometric proximity) शक्य होते.

मॉडेल कधीही नियम शिकत नाही. ते एक दिशा शिकते.

प्रत्येक वेट हे एका लहान होकायंत्राच्या (compass) सुईसारखे असते. ट्रेनिंग या सुयांना अशा प्रकारे निर्देश देते की ज्यामुळे भूमिती उपयुक्त ठरते. तिथे कोणतेही व्याकरण पुस्तक नसते. तिथे फक्त गणित असते.

Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

Optional learning community: https://t.me/GyaanSetuAi