AI ತರಬೇತಿಯಲ್ಲಿ ರಚನಾತ್ಮಕ ಪ್ರತಿಕ್ರಿಯೆ (Structured Feedback) ಏಕೆ ಮುಖ್ಯ?
ಸಂಶೋಧಕರು AI ತರಬೇತಿಗಾಗಿ ಕೇವಲ ಸರಳ ಸ್ಕೋರ್ಗಳನ್ನು ಬಳಸುವುದನ್ನು ಬಿಟ್ಟು ಹೊರಬರುತ್ತಿದ್ದಾರೆ. ಅವರು ಈಗ ಹೆಚ್ಚು ಸಮೃದ್ಧವಾದ ಸಂಕೇತಗಳನ್ನು (richer signals) ಬಳಸುತ್ತಿದ್ದಾರೆ.
'Rethinking Reward Supervision' ಎಂಬ ಶೀರ್ಷಿಕೆಯ ಹೊಸ ಸಂಶೋಧನಾ ಪ್ರಬಂಧವು ಈ ಬದಲಾವಣೆ ಏಕೆ ಮುಖ್ಯ ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ. ಹೆಚ್ಚಿನ ತರಬೇತಿ ವಿಧಾನಗಳು ಡೇಟಾವನ್ನು ಒಂದೇ ಸಂಖ್ಯೆಯಾಗಿ ಸಂಕುಚಿತಗೊಳಿಸುತ್ತವೆ. ಒಂದು ಸ್ಕೋರ್ ಉತ್ತರವು ಉತ್ತಮವಾಗಿದೆಯೇ ಅಥವಾ ಕೆಟ್ಟದಾಗಿದೆಯೇ ಎಂದು ಮಾತ್ರ ತಿಳಿಸುತ್ತದೆ. ಅದು ಏಕೆ ಹಾಗೆ ಎಂಬ ಕಾರಣವನ್ನು ತಿಳಿಸುವುದಿಲ್ಲ.
ಪ್ರಸ್ತುತ ವಿಧಾನಗಳು ಕೆಲವು ಮಿತಿಗಳನ್ನು ಹೊಂದಿವೆ:
- Supervised distillation ವಿಧಾನವು chain-of-thought ಉದಾಹರಣೆಗಳ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದೆ. ಇವು ದುಬಾರಿಯಾಗಿವೆ ಮತ್ತು ಹೆಚ್ಚಾಗಿ ಪರಿಪೂರ್ಣವಾಗಿರುವುದಿಲ್ಲ. ಒಂದು ಮಾಡೆಲ್ ತಪ್ಪು ವಿವರಣೆಯನ್ನು ಅನುಕರಿಸಿದರೆ, ಅದು ತಪ್ಪು ವಿಷಯವನ್ನು ಕಲಿಯುತ್ತದೆ.
- Reinforcement learning ವಿಧಾನವು ರಿವಾರ್ಡ್ಗಳನ್ನು (rewards) ಬಳಸುತ್ತದೆ. ರಿವಾರ್ಡ್ ಒಂದು ಸಂಖ್ಯೆಯನ್ನು ಮಾತ್ರ ನೀಡುತ್ತದೆ. ಇದು credit assignment ಅನ್ನು ಕಷ್ಟಕರವಾಗಿಸುತ್ತದೆ. ಮಾಡೆಲ್ಗೆ ಫಲಿತಾಂಶ ತಿಳಿದಿರುತ್ತದೆ ಆದರೆ ಯಾವ ನಿರ್ದಿಷ್ಟ ಹಂತವು ವಿಫಲವಾಯಿತು ಎಂಬುದು ತಿಳಿಯುವುದಿಲ್ಲ.
Rubrics ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸುತ್ತವೆ. ಇವು ಸರಳ ಸ್ಕೋರ್ ಮತ್ತು ಪೂರ್ಣ ವಿವರಣೆಯ ನಡುವೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ.
ಈ ಪ್ರಕ್ರಿಯೆಯು ಎರಡು ಹಂತಗಳಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ:
- ವ್ಯವಸ್ಥೆಯು ಕಾರ್ಯಕ್ಕೆ ಅನುಗುಣವಾದ (task-specific) rubricsಗಳನ್ನು ರಚಿಸುತ್ತದೆ. ವಿಜ್ಞಾನದ ವಿಷಯದಲ್ಲಿ, ಇದರರ್ಥ ಘಟಕಗಳು (units) ಅಥವಾ ಕಲ್ಪನೆಗಳನ್ನು (assumptions) ಪರಿಶೀಲಿಸುವುದು ಎಂದರ್ಥ.
- ಟೀಚರ್ ಮಾಡೆಲ್ ಈ rubricsಗಳನ್ನು ಬಳಸಿ ಸ್ಟೂಡೆಂಟ್ ಮಾಡೆಲ್ಗೆ ಮಾರ್ಗದರ್ಶನ ನೀಡುತ್ತದೆ. ಇದು token-level ಮಾರ್ಗದರ್ಶನವನ್ನು ಒದಗಿಸುತ್ತದೆ. ವಿವರಣೆಯು ಎಲ್ಲಿ ದುರ್ಬಲವಾಗಿದೆ ಎಂಬುದನ್ನು rubric ಮಾಡೆಲ್ಗೆ ನಿಖರವಾಗಿ ತಿಳಿಸುತ್ತದೆ.
ಈ ವಿಧಾನವು ಮೂರು ಪ್ರಯೋಜನಗಳನ್ನು ನೀಡುತ್ತದೆ:
- ಉತ್ತಮ credit assignment. ಮಾಡೆಲ್ ಇಡೀ ಪ್ರಯತ್ನವನ್ನು ಕೈಬಿಡುವ ಬದಲು ನಿರ್ದಿಷ್ಟ ತಪ್ಪುಗಳಿಂದ ಕಲಿಯುತ್ತದೆ.
- ಮರುಬಳಕೆ ಮಾಡಬಹುದಾದ ಮೇಲ್ವಿಚಾರಣೆ (Reusable supervision). ಒಂದು rubric ಅನೇಕ ವಿಭಿನ್ನ ಉತ್ತರಗಳಿಗೆ ಮಾರ್ಗದರ್ಶನ ನೀಡಬಲ್ಲದು.
- ಉತ್ತಮ ಸ್ಕೇಲಿಂಗ್ (Better scaling). ಬೈನರಿ ಪಾಸ್ ಅಥವಾ ಫೇಲ್ ಲೇಬಲ್ಗಿಂತ, ಅನೇಕ ಹಂತಗಳನ್ನು ಹೊಂದಿರುವ ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು rubrics ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸುತ್ತವೆ.
ವಿಜ್ಞಾನದ ತಾರ್ಕಿಕ ಕಾರ್ಯಗಳಲ್ಲಿ (science reasoning tasks) ಈ ವಿಧಾನವು GRPO ಮತ್ತು OPSD ನಂತಹ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಮಾಡೆಲ್ಗಳಿಗಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂದು ಈ ಪ್ರಬಂಧವು ತೋರಿಸುತ್ತದೆ