ಪದಗಳ ಅರ್ಥವೇನು ಎಂಬುದು GPT ಗೆ ತಿಳಿದಿಲ್ಲ

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ವಾರಗಳ ಹಿಂದೆ2min read

GPT ಗೆ ಪದಗಳ ಅರ್ಥವೇನು ಎಂಬ ಅರಿವಿಲ್ಲ

GPT ಭಾಷೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದಿಲ್ಲ. ಅದು ಸಂಖ್ಯೆಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತದೆ.

ಹೆಚ್ಚಿನ ಜನರು ಅಟೆನ್ಷನ್ (attention) ಅನ್ನು ರೂಪಕಗಳ ಮೂಲಕ ವಿವರಿಸುತ್ತಾರೆ. ಅವರು ಬಾಣದ ಗುರುತುಗಳು ಅಥವಾ ಹೊಳೆಯುವ ಸಂಪರ್ಕಗಳನ್ನು ಬಳಸುತ್ತಾರೆ. ಆದರೆ ಅದು ಕೆಲಸ ಮಾಡುವ ರೀತಿ ಇದಲ್ಲ.

ನಾನು ಗಣಿತವನ್ನು ಕೈಯಿಂದ ಪತ್ತೆಹಚ್ಚಿದೆ. ನಾನು ನಿಜವಾದ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ಗುಣಾಕಾರಗಳನ್ನು (matrix multiplications) ಬಳಸಿದೆ. ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್ (transformer) ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ ಎಂಬ ವಾಸ್ತವ ಇಲ್ಲಿದೆ.

ಈ ಪ್ರಕ್ರಿಯೆಯು ಎಂಬೆಡ್ಡಿಂಗ್ಸ್ (embeddings) ಮೂಲಕ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ. ಪ್ರತಿಯೊಂದು ಪದಕ್ಕೆ ಒಂದು ಯಾದೃಚ್ಛಿಕ (random) ಕೋಆರ್ಡಿನೇಟ್ ಸಿಗುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, "love" ಎಂಬ ಪದವು [0.10, 0.30] ನಲ್ಲಿ ಪ್ರಾರಂಭವಾಗಬಹುದು. ಆರಂಭದಲ್ಲಿ ಈ ಸಂಖ್ಯೆಗಳಿಗೆ ಯಾವುದೇ ಅರ್ಥವಿರುವುದಿಲ್ಲ.

ನಂತರ ಅಟೆನ್ಷನ್ (attention) ನಡೆಯುತ್ತದೆ.

ಈ ವಾಕ್ಯವನ್ನು ತೆಗೆದುಕೊಳ್ಳಿ: "The dog chased the cat because it was fast."

"it" ಎಂಬುದು ನಾಯಿಯನ್ನು ಸೂಚಿಸುತ್ತದೆಯೇ ಅಥವಾ ಬೆಕ್ಕನ್ನು ಸೂಚಿಸುತ್ತದೆಯೇ ಎಂದು ಮಾಡೆಲ್ ನಿರ್ಧರಿಸಬೇಕು. ಅದನ್ನು ಅನುಸರಿಸಲು ಯಾವುದೇ ವ್ಯಾಕರಣ ನಿಯಮಗಳಿಲ್ಲ. ಅದು ಕೇವಲ ಹಿಂದಿನ ಪದಗಳನ್ನು ನೋಡುತ್ತದೆ ಮತ್ತು ಒಂದು ಸ್ಕೋರ್ ಅನ್ನು ನೀಡುತ್ತದೆ. ಅದು ಹೀಗೆ ಕೇಳುತ್ತದೆ: "ನಾನು ಈಗ ನಿನ್ನ ಕಡೆ ಎಷ್ಟು ಗಮನ (attention) ನೀಡಬೇಕು?"

ಇದು ಒಂದು ವೇಯ್ಟ್ ಟೇಬಲ್ (weight table) ಅನ್ನು ನೀಡುತ್ತದೆ.

[I, love, pizza] ಎಂಬ ಸರಣಿಗೆ:

"love" ಎಂಬುದು "I" ಗೆ 51% ಅಟೆನ್ಷನ್ ಮತ್ತು ತನಗೆ 49% ಅಟೆನ್ಷನ್ ನೀಡಬಹುದು.
"pizza" ಇಡೀ ಚಿತ್ರಣವನ್ನು ನೋಡಬಲ್ಲದು. ಅದು ಮೂರೂ ಪದಗಳ ಮೇಲೆ ಅಟೆನ್ಷನ್ ಅನ್ನು ಹಂಚುತ್ತದೆ.

ಇದು ರೂಪಕವಲ್ಲ. "love" ಎಂಬ ಪದವು ಒಂದು ವೆಕ್ಟರ್ (vector) ಆಗಿ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ. ಅಟೆನ್ಷನ್ ನಂತರ, ಅದು ಹೊಸ ವೆಕ್ಟರ್ ಆಗುತ್ತದೆ. ಅದು ಬಾಹ್ಯಾಕಾಶದಲ್ಲಿ (space) ತನ್ನ ಸ್ಥಾನವನ್ನು ಭೌತಿಕವಾಗಿ ಬದಲಾಯಿಸಿಕೊಳ್ಳುತ್ತದೆ. ಅದು "I" ನಿಂದ ವೆಕ್ಟರ್‌ನ ಒಂದು ಭಾಗವನ್ನು ಹೀರಿಕೊಳ್ಳುತ್ತದೆ.

"I" ಎಂಬ ಸಂದರ್ಭದಲ್ಲಿರುವ "love" ಎಂಬ ಪದವು, ಏಕಾಂಗಿಯಾಗಿರುವ "love" ಪದಕ್ಕಿಂತ ಭಿನ್ನವಾದ ಗಣಿತದ ಬಿಂದುವಾಗಿದೆ. ಸಂದರ್ಭ (Context) ಎಂದರೆ ಕೇವಲ ವೆಕ್ಟರ್‌ಗಳನ್ನು ಬೆರೆಸುವ ಗಣಿತವಷ್ಟೇ.

ಅದು ಹೇಗೆ ಕಲಿಯುತ್ತದೆ? ಸಣ್ಣ ಬದಲಾವಣೆಗಳ ಮೂಲಕ.

ಮಾಡೆಲ್ ತಪ್ಪಾದ ಮುನ್ಸೂಚನೆ ನೀಡಿದಾಗ, ಬ್ಯಾಕ್‌ಪ್ರೊಪಗೇಶನ್ (backpropagation) ವೇಯ್ಟ್‌ಗಳನ್ನು ಸಣ್ಣದಾಗಿ ಬದಲಾಯಿಸುತ್ತದೆ. ಈ ಬದಲಾವಣೆಗಳು ಬಹಳ ಸಣ್ಣದಾಗಿರುತ್ತವೆ. ಒಂದು ವೇಯ್ಟ್ 0.400 ರಿಂದ 0.397 ಕ್ಕೆ ಬದಲಾಗಬಹುದು.

0.009 ರ ಒಂದು ಸಣ್ಣ ಬದಲಾವಣೆಯು ಮುನ್ಸೂಚನೆಯನ್ನು ತಪ್ಪಿನಿಂದ ಸರಿಯಾಗಿ ಬದಲಾಯಿಸಬಹುದು. GPT-3 ಇದನ್ನು 300 ಬಿಲಿಯನ್ ಬಾರಿ ಮಾಡಿದೆ.

ಇದು ಝೀರೋ-ಶಾಟ್ ಜನರಲೈಸೇಶನ್ (zero-shot generalization) ಅನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ. "You" ಮತ್ತು "I" ಗಣಿತೀಯವಾಗಿ ಒಂದೇ ರೀತಿಯವೆಂದು ಮಾಡೆಲ್ ಕಲಿಯುತ್ತದೆ. ಅದು ಆ ನಿರ್ದಿಷ್ಟ ಜೋಡಿಯನ್ನು ಎಂದೂ ನೋಡಿರದಿದ್ದರೂ, "You" ನಂತರ "love" ಎಂದು ಮುನ್ಸೂಚಿಸುತ್ತದೆ. ಇದು ಜ್ಯಾಮಿತೀಯ ಸಮೀಪತೆಯಿಂದಾಗಿ (geometric proximity) ಸಾಧ್ಯವಾಗುತ್ತದೆ.

ಮಾಡೆಲ್ ಎಂದಿಗೂ ನಿಯಮವನ್ನು ಕಲಿಯುವುದಿಲ್ಲ. ಅದು ಒಂದು ದಿಕ್ಕನ್ನು ಕಲಿಯುತ್ತದೆ.

ಪ್ರತಿಯೊಂದು ವೇಯ್ಟ್ ಒಂದು ಸಣ್ಣ ದಿಕ್ಸೂಚಿ ಮುಳ್ಳಿನಂತಿದೆ. ಜ್ಯಾಮಿತಿಯು ಉಪಯುಕ್ತವಾಗುವಂತೆ ತರಬೇತಿಯು ಈ ಮುಳ್ಳುಗಳನ್ನು ಸರಿಯಾದ ದಿಕ್ಕಿಗೆ ತಿರುಗಿಸುತ್ತದೆ. ಅಲ್ಲಿ ಯಾವುದೇ ವ್ಯಾಕರಣ ಪುಸ್ತಕವಿಲ್ಲ. ಅಲ್ಲಿ ಕೇವಲ ಗಣಿತವಷ್ಟೇ ಇದೆ.

ಮೂಲ: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi

ಪದಗಳ ಅರ್ಥವೇನು ಎಂಬುದು GPT ಗೆ ತಿಳಿದಿಲ್ಲ

Continue reading

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

𝗚𝗣𝗧 𝗗𝗼𝗲𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗬𝗼𝘂 𝗧𝗵𝗶𝗻𝗸

AI ಮಾದರಿಗಳು ನಿಜವಾಗಿಯೂ ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತವೆ