வார்த்தைகளின் அர்த்தம் என்றால் என்னவென்று GPT-க்கு தெரியாது

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 வாரங்களுக்கு முன்2min read

வார்த்தைகளின் அர்த்தம் என்றால் என்னவென்று GPT-க்கு தெரியாது

GPT-க்கு வார்த்தைகளின் அர்த்தம் தெரியாது

GPT மொழியைப் புரிந்துகொள்வதில்லை. அது எண்களைப் புரிந்துகொள்கிறது.

பெரும்பாலான மக்கள் attention-ஐ உருவகங்கள் (metaphors) மூலம் விளக்குகிறார்கள். அவர்கள் அம்புக்குறிகள் அல்லது ஒளிரும் இணைப்புகளைப் பயன்படுத்துகிறார்கள். ஆனால் அது அப்படிச் செயல்படுவதில்லை.

நான் கணிதத்தை கையால் கணக்கிட்டுப் பார்த்தேன். உண்மையான matrix multiplications-ஐப் பயன்படுத்தினேன். ஒரு transformer எவ்வாறு செயல்படுகிறது என்பதன் உண்மை நிலை இதோ.

இந்தச் செயல்முறை embeddings-இல் தொடங்குகிறது. ஒவ்வொரு வார்த்தைக்கும் ஒரு சீரற்ற ஆயத்தொலைவு (random coordinate) வழங்கப்படுகிறது. உதாரணமாக, "love" என்ற வார்த்தை [0.10, 0.30] என்ற இடத்தில் தொடங்கலாம். தொடக்கத்தில் இந்த எண்களுக்கு எந்த அர்த்தமும் இல்லை.

பிறகு attention நிகழ்கிறது.

இந்த வாக்கியத்தை எடுத்துக்கொள்ளுங்கள்: "The dog chased the cat because it was fast."

"it" என்பது நாயைக் குறிக்கிறதா அல்லது பூனையைச் குறிக்கிறதா என்பதை மாடல் தீர்மானிக்க வேண்டும். அதைப் பின்பற்ற எந்த இலக்கண விதிகளும் அதற்கு இல்லை. அது முந்தைய வார்த்தைகளை மட்டுமே பார்த்து ஒரு மதிப்பெண்ணை (score) வழங்குகிறது. அது கேட்கிறது: "இப்போது நான் உனக்கு எவ்வளவு attention கொடுக்க வேண்டும்?"

இது ஒரு weight table-ஐ உருவாக்குகிறது.

[I, love, pizza] என்ற வரிசைக்கு:

"love" என்பது "I"-க்கு 51% attention-ஐயும், தனக்கு 49% attention-ஐயும் வழங்கலாம்.
"pizza" முழுப் படத்தையும் பார்க்க முடியும். அது மூன்று வார்த்தைகளுக்கும் இடையில் attention-ஐப் பரப்புகிறது.

இது ஒரு உருவகம் அல்ல. "love" என்ற வார்த்தை ஒரு vector-ஆகத் தொடங்குகிறது. Attention-க்கு பிறகு, அது ஒரு புதிய vector-ஆக மாறுகிறது. அது space-இல் தனது நிலையைத் தற்காலிகமாக மாற்றிக்கொள்கிறது. அது "I"-இடமிருந்து ஒரு vector-இன் பகுதியை உறிஞ்சிக்கொள்கிறது.

"I" என்ற சூழலில் வரும் "love" என்ற வார்த்தை, தனியாக இருக்கும் "love"-ஐ விட ஒரு மாறுபட்ட கணிதப் புள்ளியாகும். Context என்பது வெக்டர்களைக் கலக்கும் கணிதம் மட்டுமே.

அது எப்படி கற்றுக்கொள்கிறது? மிகச்சிறிய மாற்றங்கள் மூலம்.

மாடல் தவறாகக் கணிக்கும்போது, backpropagation எடைகளை (weights) லேசாக மாற்றுகிறது. இந்த மாற்றங்கள் மிகச் சிறியவை. ஒரு எடை 0.400 என்பதிலிருந்து 0.397 ஆக மாறலாம்.

0.009 என்ற ஒரு சிறிய மாற்றம், ஒரு கணிப்பைத் தவறிலிருந்து சரியாக மாற்ற முடியும். GPT-3 இதை 300 பில்லியன் முறை செய்துள்ளது.

இது zero-shot generalization-ஐ உருவாக்குகிறது. "You" மற்றும் "I" ஆகியவை கணித ரீதியாக ஒத்தவை என்பதை மாடல் கற்றுக்கொள்கிறது. அந்த குறிப்பிட்ட ஜோடியை அது பார்த்ததில்லை என்றாலும், "You"-க்கு அடுத்து "love" வரும் என்று அது கணிக்கும். இது geometric proximity காரணமாகச் சாத்தியமாகிறது.

மாடல் ஒருபோதும் ஒரு விதியைக் கற்றுக்கொள்வதில்லை. அது ஒரு திசையைக் கற்றுக்கொள்கிறது.

ஒவ்வொரு weight-உம் ஒரு சிறிய திசைகாட்டி ஊசி போன்றது. வடிவியல் (geometry) பயனுள்ளதாக மாறும் வகையில் பயிற்சி இந்த ஊசிகளைக் காட்டுகிறது. அங்கு இலக்கணப் புத்தகம் என்று எதுவும் இல்லை. கணிதம் மட்டுமே உள்ளது.

Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

Optional learning community: https://t.me/GyaanSetuAi

வார்த்தைகளின் அர்த்தம் என்றால் என்னவென்று GPT-க்கு தெரியாது

Continue reading

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

நீங்கள் நினைப்பதை விட GPT அதிகமானது

AI மாதிரிகள் உண்மையில் எப்படிச் செயல்படுகின்றன