𝗧𝗵𝗿𝗲𝗲 𝗥𝗼𝘂𝗻𝗱𝘀 𝗼𝗳 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝗮𝗸𝗲 𝗮 𝗖𝗵𝗮𝘁𝗯𝗼𝘁
ಕೇವಲ ಒಂದು Transformer ಅನ್ನು ನಿರ್ಮಿಸುವುದು ಸಾಕಾಗುವುದಿಲ್ಲ. ನೀವು ಇಡೀ ಇಂಟರ್ನೆಟ್ ಅನ್ನು ಅದಕ್ಕೆ ನೀಡಬಹುದು ಮತ್ತು ಕಂಪ್ಯೂಟಿಂಗ್ಗಾಗಿ ಲಕ್ಷಾಂತರ ರೂಪಾಯಿಗಳನ್ನು ಖರ್ಚು ಮಾಡಬಹುದು. ಆದರೂ, ಅದು ಒಂದು ಸರಳ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸಲಾಗದ ಯಂತ್ರವಾಗಿಯೇ ಉಳಿಯಬಹುದು.
ಒಂದು ರ (raw) ಮಾಡೆಲ್ ಕೇವಲ ಪಠ್ಯವನ್ನು ಅನುಕರಿಸುವ ಸಾಧನವಷ್ಟೇ. ಇದು ಮಾದರಿಗಳ (patterns) ಆಧಾರದ ಮೇಲೆ ಮುಂದಿನ ಪದವನ್ನು ಊಹಿಸುತ್ತದೆ. ನೀವು "ನನ್ನ ರೂಟರ್ ಅನ್ನು ನಾನು ಹೇಗೆ ರಿಸೆಟ್ ಮಾಡುವುದು?" ಎಂದು ಕೇಳಿದರೆ, ಅದು "ನನ್ನ ಪಾಸ್ವರ್ಡ್ ಅನ್ನು ನಾನು ಹೇಗೆ ಬದಲಾಯಿಸುವುದು?" ಎಂಬಂತಹ ಹೆಚ್ಚಿನ ಪ್ರಶ್ನೆಗಳನ್ನೇ ಕೇಳಬಹುದು. ನಿಮಗೆ ಸಹಾಯ ಬೇಕಾಗಿದೆ ಎಂಬುದು ಅದಕ್ಕೆ ತಿಳಿದಿರುವುದಿಲ್ಲ. ಇಂಟರ್ನೆಟ್ನಲ್ಲಿ ಒಂದು ವಾಕ್ಯವನ್ನು ಹೇಗೆ ಮುಂದುವರಿಸಲಾಗುತ್ತದೆ ಎಂಬುದು ಮಾತ್ರ ಅದಕ್ಕೆ ತಿಳಿದಿರುತ್ತದೆ.
ಈ ಊಹಿಸುವ ಸಾಧನವನ್ನು (predictor) ಚಾಟ್ಬಾಟ್ ಆಗಿ ಪರಿವರ್ತಿಸಲು, ನಿಮಗೆ ಮೂರು ಹಂತದ ತರಬೇತಿಯ ಅಗತ್ಯವಿದೆ.
Pretraining (ಎಂಜಿನ್) ನೀವು ಮಾಡೆಲ್ಗೆ ಟ್ರಿಲಿಯನ್ಗಟ್ಟಲೆ ಪದಗಳನ್ನು ತೋರಿಸುತ್ತೀರಿ. ನೀವು ಕೊನೆಯ ಪದವನ್ನು ಮರೆಮಾಚಿ ಅದನ್ನು ಊಹಿಸಲು ಹೇಳುತ್ತೀರಿ. ಇದು ಜ್ಞಾನವನ್ನು ನಿರ್ಮಿಸುತ್ತದೆ. ಇದು ಸತ್ಯಾಂಶಗಳು, ವ್ಯಾಕರಣ ಮತ್ತು ತರ್ಕವನ್ನು ಕಲಿಯುತ್ತದೆ. ಡೇಟಾವು ತನ್ನಷ್ಟಕ್ಕೆ ತಾನೇ ಲೇಬಲ್ ಆಗಿರುವುದರಿಂದ ಇದು ಕೆಲಸ ಮಾಡುತ್ತದೆ. ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾ (Scale) ಇದನ್ನು ಹೆಚ್ಚು ನಿಖರವಾಗಿಸುತ್ತದೆ. ಹೆಚ್ಚು ಡೇಟಾ ಮತ್ತು ಹೆಚ್ಚು ಕಂಪ್ಯೂಟಿಂಗ್ ಉತ್ತಮ ಫಲಿತಾಂಶಗಳಿಗೆ ಕಾರಣವಾಗುತ್ತದೆ.
Instruction Tuning (ಸ್ಕ್ರಿಪ್ಟ್) ಬೇಸ್ ಮಾಡೆಲ್ಗೆ ಎಲ್ಲವೂ ತಿಳಿದಿರುತ್ತದೆ ಆದರೆ ಅದಕ್ಕೆ ಯಾವುದೇ ಗುರಿ ಇರುವುದಿಲ್ಲ. ಈ ಹಂತದಲ್ಲಿ, ನೀವು ಅದಕ್ಕೆ ಒಂದು ಪ್ರಾಂಪ್ಟ್ (prompt) ಮತ್ತು ಅದಕ್ಕೆ ಸೂಕ್ತವಾದ ಮಾನವ ಪ್ರತಿಕ್ರಿಯೆಯ ಕೆಲವು ಸಾವಿರ ಉದಾಹರಣೆಗಳನ್ನು ತೋರಿಸುತ್ತೀರಿ. ಇದು ಹೊಸ ಜ್ಞಾನವನ್ನು ಸೇರಿಸುವುದಿಲ್ಲ. ಬದಲಾಗಿ, ಇದು ಮಾಡೆಲ್ಗೆ ಹೊಸ ನಡವಳಿಕೆಯನ್ನು ಕಲಿಸುತ್ತದೆ. ನೀವು ಒಬ್ಬ ನಟನಿಗೆ ಸ್ಕ್ರಿಪ್ಟ್ ನೀಡಿದಂತೆ ಇದು ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಕೇವಲ ಪಠ್ಯವನ್ನು ಪೂರ್ಣಗೊಳಿಸುವ ಸಾಧನವಾಗಿರದೆ, ಒಬ್ಬ ಸಹಾಯಕನಂತೆ ಹೇಗೆ ವರ್ತಿಸಬೇಕೆಂದು ಅದು ಕಲಿಯುತ್ತದೆ.
Preference Tuning (ನಡವಳಿಕೆ) ಸ್ಕ್ರಿಪ್ಟ್ಗಳು ಸೀಮಿತವಾಗಿರುತ್ತವೆ. ನೀವು ಪ್ರತಿಯೊಂದು ಸಂದರ್ಭಕ್ಕೂ ನಿಯಮಗಳನ್ನು ಬರೆಯಲು ಸಾಧ್ಯವಿಲ್ಲ. ಈ ಹಂತದಲ್ಲಿ, ನೀವು ಮಾಡೆಲ್ಗೆ ಎರಡು ವಿಭಿನ್ನ ಉತ್ತರಗಳನ್ನು ತೋರಿಸುತ್ತೀರಿ ಮತ್ತು ಮನುಷ್ಯನೊಬ್ಬ ಉತ್ತಮವಾದ ಉತ್ತರವನ್ನು ಆಯ್ಕೆ ಮಾಡಲು ಬಿಡುತ್ತೀರಿ. ಮಾನವನ ಇಷ್ಟದ ಆಧಾರದ ಮೇಲೆ ಹೆಚ್ಚಿನ ಸ್ಕೋರ್ ಪಡೆಯಲು ಮಾಡೆಲ್ ಕಲಿಯುತ್ತದೆ. ಇದು ಮಾಡೆಲ್ಗೆ ಅದರ ಧಾಟಿ (tone), ವಿನಯ ಮತ್ತು ಸುರಕ್ಷತಾ ಮಿತಿಗಳನ್ನು ನೀಡುತ್ತದೆ.
ಸಾರಾಂಶ ಸರಳವಾಗಿದೆ:
- Pretraining ಜ್ಞಾನವನ್ನು ನಿರ್ಮಿಸುತ್ತದೆ.
- Instruction tuning ಜನಸಂದಣಿಯ ನಡುವಿನಿಂದ ಒಬ್ಬ ಉತ್ತಮ ಸಹಾಯಕನನ್ನು ಆರಿಸುತ್ತದೆ.
- Preference tuning ವಿವೇಚನೆ ಮತ್ತು ನಡವಳಿಕೆಯನ್ನು ಸೇರಿಸುತ್ತದೆ.
ಚಾಟ್ ವಿಂಡೋದಲ್ಲಿ ನೀವು ಕಾಣುವ ವ್ಯಕ್ತಿತ್ವವು ಕೇವಲ ಒಂದು ರ (raw) ವರ್ಡ್ ಪ್ರೆಡಿಕ್ಟರ್ನ ಮೇಲಿರುವ ಒಂದು ತೆಳುವಾದ ಪದರವಾಗಿದೆ. ಇದನ್ನು ನಿರ್ಮಿಸಲು ನಮಗೆ ಬುದ್ಧಿವಂತಿಕೆಯ ಸಿದ್ಧಾಂತದ ಅಗತ್ಯವಿರಲಿಲ್ಲ. ನಮಗೆ ಕೇವಲ ಒಂದು ಸರಳ ಗುರಿ, ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾ (scale) ಮತ್ತು ಎರಡು ಹಂತದ ತರಬೇತಿಯ ಅಗತ್ಯವಿತ್ತು.
Optional learning community: https://t.me/GyaanSetuAi
