AI ತರಬೇತಿಯಲ್ಲಿ ರಚನಾತ್ಮಕ ಪ್ರತಿಕ್ರಿಯೆ ಏಕೆ ಮುಖ್ಯವಾಗುತ್ತದೆ?

Translated for your language. Read the original.

AI-assisted draft.

ಮೊನ್ನೆ2min read

AI ತರಬೇತಿಯಲ್ಲಿ ರಚನಾತ್ಮಕ ಪ್ರತಿಕ್ರಿಯೆ (Structured Feedback) ಏಕೆ ಮುಖ್ಯ?

ಸಂಶೋಧಕರು AI ತರಬೇತಿಗಾಗಿ ಕೇವಲ ಸರಳ ಸ್ಕೋರ್‌ಗಳನ್ನು ಬಳಸುವುದನ್ನು ಬಿಟ್ಟು ಹೊರಬರುತ್ತಿದ್ದಾರೆ. ಅವರು ಈಗ ಹೆಚ್ಚು ಸಮೃದ್ಧವಾದ ಸಂಕೇತಗಳನ್ನು (richer signals) ಬಳಸುತ್ತಿದ್ದಾರೆ.

'Rethinking Reward Supervision' ಎಂಬ ಶೀರ್ಷಿಕೆಯ ಹೊಸ ಸಂಶೋಧನಾ ಪ್ರಬಂಧವು ಈ ಬದಲಾವಣೆ ಏಕೆ ಮುಖ್ಯ ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ. ಹೆಚ್ಚಿನ ತರಬೇತಿ ವಿಧಾನಗಳು ಡೇಟಾವನ್ನು ಒಂದೇ ಸಂಖ್ಯೆಯಾಗಿ ಸಂಕುಚಿತಗೊಳಿಸುತ್ತವೆ. ಒಂದು ಸ್ಕೋರ್ ಉತ್ತರವು ಉತ್ತಮವಾಗಿದೆಯೇ ಅಥವಾ ಕೆಟ್ಟದಾಗಿದೆಯೇ ಎಂದು ಮಾತ್ರ ತಿಳಿಸುತ್ತದೆ. ಅದು ಏಕೆ ಹಾಗೆ ಎಂಬ ಕಾರಣವನ್ನು ತಿಳಿಸುವುದಿಲ್ಲ.

ಪ್ರಸ್ತುತ ವಿಧಾನಗಳು ಕೆಲವು ಮಿತಿಗಳನ್ನು ಹೊಂದಿವೆ:

Supervised distillation ವಿಧಾನವು chain-of-thought ಉದಾಹರಣೆಗಳ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದೆ. ಇವು ದುಬಾರಿಯಾಗಿವೆ ಮತ್ತು ಹೆಚ್ಚಾಗಿ ಪರಿಪೂರ್ಣವಾಗಿರುವುದಿಲ್ಲ. ಒಂದು ಮಾಡೆಲ್ ತಪ್ಪು ವಿವರಣೆಯನ್ನು ಅನುಕರಿಸಿದರೆ, ಅದು ತಪ್ಪು ವಿಷಯವನ್ನು ಕಲಿಯುತ್ತದೆ.
Reinforcement learning ವಿಧಾನವು ರಿವಾರ್ಡ್‌ಗಳನ್ನು (rewards) ಬಳಸುತ್ತದೆ. ರಿವಾರ್ಡ್ ಒಂದು ಸಂಖ್ಯೆಯನ್ನು ಮಾತ್ರ ನೀಡುತ್ತದೆ. ಇದು credit assignment ಅನ್ನು ಕಷ್ಟಕರವಾಗಿಸುತ್ತದೆ. ಮಾಡೆಲ್‌ಗೆ ಫಲಿತಾಂಶ ತಿಳಿದಿರುತ್ತದೆ ಆದರೆ ಯಾವ ನಿರ್ದಿಷ್ಟ ಹಂತವು ವಿಫಲವಾಯಿತು ಎಂಬುದು ತಿಳಿಯುವುದಿಲ್ಲ.

Rubrics ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸುತ್ತವೆ. ಇವು ಸರಳ ಸ್ಕೋರ್ ಮತ್ತು ಪೂರ್ಣ ವಿವರಣೆಯ ನಡುವೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ.

ಈ ಪ್ರಕ್ರಿಯೆಯು ಎರಡು ಹಂತಗಳಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ:

ವ್ಯವಸ್ಥೆಯು ಕಾರ್ಯಕ್ಕೆ ಅನುಗುಣವಾದ (task-specific) rubricsಗಳನ್ನು ರಚಿಸುತ್ತದೆ. ವಿಜ್ಞಾನದ ವಿಷಯದಲ್ಲಿ, ಇದರರ್ಥ ಘಟಕಗಳು (units) ಅಥವಾ ಕಲ್ಪನೆಗಳನ್ನು (assumptions) ಪರಿಶೀಲಿಸುವುದು ಎಂದರ್ಥ.
ಟೀಚರ್ ಮಾಡೆಲ್ ಈ rubricsಗಳನ್ನು ಬಳಸಿ ಸ್ಟೂಡೆಂಟ್ ಮಾಡೆಲ್‌ಗೆ ಮಾರ್ಗದರ್ಶನ ನೀಡುತ್ತದೆ. ಇದು token-level ಮಾರ್ಗದರ್ಶನವನ್ನು ಒದಗಿಸುತ್ತದೆ. ವಿವರಣೆಯು ಎಲ್ಲಿ ದುರ್ಬಲವಾಗಿದೆ ಎಂಬುದನ್ನು rubric ಮಾಡೆಲ್‌ಗೆ ನಿಖರವಾಗಿ ತಿಳಿಸುತ್ತದೆ.

ಈ ವಿಧಾನವು ಮೂರು ಪ್ರಯೋಜನಗಳನ್ನು ನೀಡುತ್ತದೆ:

ಉತ್ತಮ credit assignment. ಮಾಡೆಲ್ ಇಡೀ ಪ್ರಯತ್ನವನ್ನು ಕೈಬಿಡುವ ಬದಲು ನಿರ್ದಿಷ್ಟ ತಪ್ಪುಗಳಿಂದ ಕಲಿಯುತ್ತದೆ.
ಮರುಬಳಕೆ ಮಾಡಬಹುದಾದ ಮೇಲ್ವಿಚಾರಣೆ (Reusable supervision). ಒಂದು rubric ಅನೇಕ ವಿಭಿನ್ನ ಉತ್ತರಗಳಿಗೆ ಮಾರ್ಗದರ್ಶನ ನೀಡಬಲ್ಲದು.
ಉತ್ತಮ ಸ್ಕೇಲಿಂಗ್ (Better scaling). ಬೈನರಿ ಪಾಸ್ ಅಥವಾ ಫೇಲ್ ಲೇಬಲ್‌ಗಿಂತ, ಅನೇಕ ಹಂತಗಳನ್ನು ಹೊಂದಿರುವ ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು rubrics ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸುತ್ತವೆ.

ವಿಜ್ಞಾನದ ತಾರ್ಕಿಕ ಕಾರ್ಯಗಳಲ್ಲಿ (science reasoning tasks) ಈ ವಿಧಾನವು GRPO ಮತ್ತು OPSD ನಂತಹ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಮಾಡೆಲ್‌ಗಳಿಗಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂದು ಈ ಪ್ರಬಂಧವು ತೋರಿಸುತ್ತದೆ

AI ತರಬೇತಿಯಲ್ಲಿ ರಚನಾತ್ಮಕ ಪ್ರತಿಕ್ರಿಯೆ ಏಕೆ ಮುಖ್ಯವಾಗುತ್ತದೆ?

Continue reading

ಎಐ ಎಂದರೆ ಕೇವಲ ಪ್ರಾಂಪ್ಟ್‌ಗಳಲ್ಲ

ಎಐ ಎಂದರೆ ಕೇವಲ ಪ್ರಾಂಪ್ಟ್‌ಗಳಲ್ಲ

AI ಗಾಗಿ ಏಕೀಕೃತ ರಿವಾರ್ಡ್ ಮಾಡೆಲ್‌ಗಳು

𝗠𝗮𝗿𝗸𝗱𝗼𝘄𝗻 𝗙𝗼𝗿𝗺𝗮𝘁𝘁𝗶𝗻𝗴 𝗙𝗼𝗿 𝗔𝗜 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀