GPT ಗೆ ಪದಗಳ ಅರ್ಥವೇನು ಎಂಬ ಅರಿವಿಲ್ಲ

GPT ಭಾಷೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದಿಲ್ಲ. ಅದು ಸಂಖ್ಯೆಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತದೆ.

ಹೆಚ್ಚಿನ ಜನರು ಅಟೆನ್ಷನ್ (attention) ಅನ್ನು ರೂಪಕಗಳ ಮೂಲಕ ವಿವರಿಸುತ್ತಾರೆ. ಅವರು ಬಾಣದ ಗುರುತುಗಳು ಅಥವಾ ಹೊಳೆಯುವ ಸಂಪರ್ಕಗಳನ್ನು ಬಳಸುತ್ತಾರೆ. ಆದರೆ ಅದು ಕೆಲಸ ಮಾಡುವ ರೀತಿ ಇದಲ್ಲ.

ನಾನು ಗಣಿತವನ್ನು ಕೈಯಿಂದ ಪತ್ತೆಹಚ್ಚಿದೆ. ನಾನು ನಿಜವಾದ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ಗುಣಾಕಾರಗಳನ್ನು (matrix multiplications) ಬಳಸಿದೆ. ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್ (transformer) ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ ಎಂಬ ವಾಸ್ತವ ಇಲ್ಲಿದೆ.

ಈ ಪ್ರಕ್ರಿಯೆಯು ಎಂಬೆಡ್ಡಿಂಗ್ಸ್ (embeddings) ಮೂಲಕ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ. ಪ್ರತಿಯೊಂದು ಪದಕ್ಕೆ ಒಂದು ಯಾದೃಚ್ಛಿಕ (random) ಕೋಆರ್ಡಿನೇಟ್ ಸಿಗುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, "love" ಎಂಬ ಪದವು [0.10, 0.30] ನಲ್ಲಿ ಪ್ರಾರಂಭವಾಗಬಹುದು. ಆರಂಭದಲ್ಲಿ ಈ ಸಂಖ್ಯೆಗಳಿಗೆ ಯಾವುದೇ ಅರ್ಥವಿರುವುದಿಲ್ಲ.

ನಂತರ ಅಟೆನ್ಷನ್ (attention) ನಡೆಯುತ್ತದೆ.

ಈ ವಾಕ್ಯವನ್ನು ತೆಗೆದುಕೊಳ್ಳಿ: "The dog chased the cat because it was fast."

"it" ಎಂಬುದು ನಾಯಿಯನ್ನು ಸೂಚಿಸುತ್ತದೆಯೇ ಅಥವಾ ಬೆಕ್ಕನ್ನು ಸೂಚಿಸುತ್ತದೆಯೇ ಎಂದು ಮಾಡೆಲ್ ನಿರ್ಧರಿಸಬೇಕು. ಅದನ್ನು ಅನುಸರಿಸಲು ಯಾವುದೇ ವ್ಯಾಕರಣ ನಿಯಮಗಳಿಲ್ಲ. ಅದು ಕೇವಲ ಹಿಂದಿನ ಪದಗಳನ್ನು ನೋಡುತ್ತದೆ ಮತ್ತು ಒಂದು ಸ್ಕೋರ್ ಅನ್ನು ನೀಡುತ್ತದೆ. ಅದು ಹೀಗೆ ಕೇಳುತ್ತದೆ: "ನಾನು ಈಗ ನಿನ್ನ ಕಡೆ ಎಷ್ಟು ಗಮನ (attention) ನೀಡಬೇಕು?"

ಇದು ಒಂದು ವೇಯ್ಟ್ ಟೇಬಲ್ (weight table) ಅನ್ನು ನೀಡುತ್ತದೆ.

[I, love, pizza] ಎಂಬ ಸರಣಿಗೆ:

  • "love" ಎಂಬುದು "I" ಗೆ 51% ಅಟೆನ್ಷನ್ ಮತ್ತು ತನಗೆ 49% ಅಟೆನ್ಷನ್ ನೀಡಬಹುದು.
  • "pizza" ಇಡೀ ಚಿತ್ರಣವನ್ನು ನೋಡಬಲ್ಲದು. ಅದು ಮೂರೂ ಪದಗಳ ಮೇಲೆ ಅಟೆನ್ಷನ್ ಅನ್ನು ಹಂಚುತ್ತದೆ.

ಇದು ರೂಪಕವಲ್ಲ. "love" ಎಂಬ ಪದವು ಒಂದು ವೆಕ್ಟರ್ (vector) ಆಗಿ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ. ಅಟೆನ್ಷನ್ ನಂತರ, ಅದು ಹೊಸ ವೆಕ್ಟರ್ ಆಗುತ್ತದೆ. ಅದು ಬಾಹ್ಯಾಕಾಶದಲ್ಲಿ (space) ತನ್ನ ಸ್ಥಾನವನ್ನು ಭೌತಿಕವಾಗಿ ಬದಲಾಯಿಸಿಕೊಳ್ಳುತ್ತದೆ. ಅದು "I" ನಿಂದ ವೆಕ್ಟರ್‌ನ ಒಂದು ಭಾಗವನ್ನು ಹೀರಿಕೊಳ್ಳುತ್ತದೆ.

"I" ಎಂಬ ಸಂದರ್ಭದಲ್ಲಿರುವ "love" ಎಂಬ ಪದವು, ಏಕಾಂಗಿಯಾಗಿರುವ "love" ಪದಕ್ಕಿಂತ ಭಿನ್ನವಾದ ಗಣಿತದ ಬಿಂದುವಾಗಿದೆ. ಸಂದರ್ಭ (Context) ಎಂದರೆ ಕೇವಲ ವೆಕ್ಟರ್‌ಗಳನ್ನು ಬೆರೆಸುವ ಗಣಿತವಷ್ಟೇ.

ಅದು ಹೇಗೆ ಕಲಿಯುತ್ತದೆ? ಸಣ್ಣ ಬದಲಾವಣೆಗಳ ಮೂಲಕ.

ಮಾಡೆಲ್ ತಪ್ಪಾದ ಮುನ್ಸೂಚನೆ ನೀಡಿದಾಗ, ಬ್ಯಾಕ್‌ಪ್ರೊಪಗೇಶನ್ (backpropagation) ವೇಯ್ಟ್‌ಗಳನ್ನು ಸಣ್ಣದಾಗಿ ಬದಲಾಯಿಸುತ್ತದೆ. ಈ ಬದಲಾವಣೆಗಳು ಬಹಳ ಸಣ್ಣದಾಗಿರುತ್ತವೆ. ಒಂದು ವೇಯ್ಟ್ 0.400 ರಿಂದ 0.397 ಕ್ಕೆ ಬದಲಾಗಬಹುದು.

0.009 ರ ಒಂದು ಸಣ್ಣ ಬದಲಾವಣೆಯು ಮುನ್ಸೂಚನೆಯನ್ನು ತಪ್ಪಿನಿಂದ ಸರಿಯಾಗಿ ಬದಲಾಯಿಸಬಹುದು. GPT-3 ಇದನ್ನು 300 ಬಿಲಿಯನ್ ಬಾರಿ ಮಾಡಿದೆ.

ಇದು ಝೀರೋ-ಶಾಟ್ ಜನರಲೈಸೇಶನ್ (zero-shot generalization) ಅನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ. "You" ಮತ್ತು "I" ಗಣಿತೀಯವಾಗಿ ಒಂದೇ ರೀತಿಯವೆಂದು ಮಾಡೆಲ್ ಕಲಿಯುತ್ತದೆ. ಅದು ಆ ನಿರ್ದಿಷ್ಟ ಜೋಡಿಯನ್ನು ಎಂದೂ ನೋಡಿರದಿದ್ದರೂ, "You" ನಂತರ "love" ಎಂದು ಮುನ್ಸೂಚಿಸುತ್ತದೆ. ಇದು ಜ್ಯಾಮಿತೀಯ ಸಮೀಪತೆಯಿಂದಾಗಿ (geometric proximity) ಸಾಧ್ಯವಾಗುತ್ತದೆ.

ಮಾಡೆಲ್ ಎಂದಿಗೂ ನಿಯಮವನ್ನು ಕಲಿಯುವುದಿಲ್ಲ. ಅದು ಒಂದು ದಿಕ್ಕನ್ನು ಕಲಿಯುತ್ತದೆ.

ಪ್ರತಿಯೊಂದು ವೇಯ್ಟ್ ಒಂದು ಸಣ್ಣ ದಿಕ್ಸೂಚಿ ಮುಳ್ಳಿನಂತಿದೆ. ಜ್ಯಾಮಿತಿಯು ಉಪಯುಕ್ತವಾಗುವಂತೆ ತರಬೇತಿಯು ಈ ಮುಳ್ಳುಗಳನ್ನು ಸರಿಯಾದ ದಿಕ್ಕಿಗೆ ತಿರುಗಿಸುತ್ತದೆ. ಅಲ್ಲಿ ಯಾವುದೇ ವ್ಯಾಕರಣ ಪುಸ್ತಕವಿಲ್ಲ. ಅಲ್ಲಿ ಕೇವಲ ಗಣಿತವಷ್ಟೇ ಇದೆ.

ಮೂಲ: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi