GPT-க்கு வார்த்தைகளின் அர்த்தம் தெரியாது
GPT மொழியைப் புரிந்துகொள்வதில்லை. அது எண்களைப் புரிந்துகொள்கிறது.
பெரும்பாலான மக்கள் attention-ஐ உருவகங்கள் (metaphors) மூலம் விளக்குகிறார்கள். அவர்கள் அம்புக்குறிகள் அல்லது ஒளிரும் இணைப்புகளைப் பயன்படுத்துகிறார்கள். ஆனால் அது அப்படிச் செயல்படுவதில்லை.
நான் கணிதத்தை கையால் கணக்கிட்டுப் பார்த்தேன். உண்மையான matrix multiplications-ஐப் பயன்படுத்தினேன். ஒரு transformer எவ்வாறு செயல்படுகிறது என்பதன் உண்மை நிலை இதோ.
இந்தச் செயல்முறை embeddings-இல் தொடங்குகிறது. ஒவ்வொரு வார்த்தைக்கும் ஒரு சீரற்ற ஆயத்தொலைவு (random coordinate) வழங்கப்படுகிறது. உதாரணமாக, "love" என்ற வார்த்தை [0.10, 0.30] என்ற இடத்தில் தொடங்கலாம். தொடக்கத்தில் இந்த எண்களுக்கு எந்த அர்த்தமும் இல்லை.
பிறகு attention நிகழ்கிறது.
இந்த வாக்கியத்தை எடுத்துக்கொள்ளுங்கள்: "The dog chased the cat because it was fast."
"it" என்பது நாயைக் குறிக்கிறதா அல்லது பூனையைச் குறிக்கிறதா என்பதை மாடல் தீர்மானிக்க வேண்டும். அதைப் பின்பற்ற எந்த இலக்கண விதிகளும் அதற்கு இல்லை. அது முந்தைய வார்த்தைகளை மட்டுமே பார்த்து ஒரு மதிப்பெண்ணை (score) வழங்குகிறது. அது கேட்கிறது: "இப்போது நான் உனக்கு எவ்வளவு attention கொடுக்க வேண்டும்?"
இது ஒரு weight table-ஐ உருவாக்குகிறது.
[I, love, pizza] என்ற வரிசைக்கு:
- "love" என்பது "I"-க்கு 51% attention-ஐயும், தனக்கு 49% attention-ஐயும் வழங்கலாம்.
- "pizza" முழுப் படத்தையும் பார்க்க முடியும். அது மூன்று வார்த்தைகளுக்கும் இடையில் attention-ஐப் பரப்புகிறது.
இது ஒரு உருவகம் அல்ல. "love" என்ற வார்த்தை ஒரு vector-ஆகத் தொடங்குகிறது. Attention-க்கு பிறகு, அது ஒரு புதிய vector-ஆக மாறுகிறது. அது space-இல் தனது நிலையைத் தற்காலிகமாக மாற்றிக்கொள்கிறது. அது "I"-இடமிருந்து ஒரு vector-இன் பகுதியை உறிஞ்சிக்கொள்கிறது.
"I" என்ற சூழலில் வரும் "love" என்ற வார்த்தை, தனியாக இருக்கும் "love"-ஐ விட ஒரு மாறுபட்ட கணிதப் புள்ளியாகும். Context என்பது வெக்டர்களைக் கலக்கும் கணிதம் மட்டுமே.
அது எப்படி கற்றுக்கொள்கிறது? மிகச்சிறிய மாற்றங்கள் மூலம்.
மாடல் தவறாகக் கணிக்கும்போது, backpropagation எடைகளை (weights) லேசாக மாற்றுகிறது. இந்த மாற்றங்கள் மிகச் சிறியவை. ஒரு எடை 0.400 என்பதிலிருந்து 0.397 ஆக மாறலாம்.
0.009 என்ற ஒரு சிறிய மாற்றம், ஒரு கணிப்பைத் தவறிலிருந்து சரியாக மாற்ற முடியும். GPT-3 இதை 300 பில்லியன் முறை செய்துள்ளது.
இது zero-shot generalization-ஐ உருவாக்குகிறது. "You" மற்றும் "I" ஆகியவை கணித ரீதியாக ஒத்தவை என்பதை மாடல் கற்றுக்கொள்கிறது. அந்த குறிப்பிட்ட ஜோடியை அது பார்த்ததில்லை என்றாலும், "You"-க்கு அடுத்து "love" வரும் என்று அது கணிக்கும். இது geometric proximity காரணமாகச் சாத்தியமாகிறது.
மாடல் ஒருபோதும் ஒரு விதியைக் கற்றுக்கொள்வதில்லை. அது ஒரு திசையைக் கற்றுக்கொள்கிறது.
ஒவ்வொரு weight-உம் ஒரு சிறிய திசைகாட்டி ஊசி போன்றது. வடிவியல் (geometry) பயனுள்ளதாக மாறும் வகையில் பயிற்சி இந்த ஊசிகளைக் காட்டுகிறது. அங்கு இலக்கணப் புத்தகம் என்று எதுவும் இல்லை. கணிதம் மட்டுமே உள்ளது.
Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li
Optional learning community: https://t.me/GyaanSetuAi
