AI பயிற்சியில் ஏன் கட்டமைக்கப்பட்ட பின்னூட்டம் (Structured Feedback) முக்கியமானது
ஆராய்ச்சியாளர்கள் AI பயிற்சியில் எளிய மதிப்பெண்களைப் பயன்படுத்துவதிலிருந்து விலகி வருகின்றனர். அவர்கள் இப்போது அதிகத் தரவுகளைக் கொண்ட சிக்னல்களைப் (signals) பயன்படுத்துகின்றனர்.
"Rethinking Reward Supervision" என்ற தலைப்பிலான புதிய ஆய்வறிக்கை, இந்த மாற்றம் ஏன் முக்கியமானது என்பதைக் காட்டுகிறது. பெரும்பாலான பயிற்சி முறைகள் தரவுகளை ஒரு ஒற்றை எண்ணாகச் சுருக்குகின்றன. ஒரு ஒற்றை மதிப்பெண் ஒரு பதில் சரியா அல்லது தவறா என்பதை மட்டுமே சொல்கிறது. அது ஏன் சரியானது அல்லது தவறானது என்பதைச் சொல்லாது.
தற்போதைய முறைகளில் வரம்புகள் உள்ளன:
- Supervised distillation என்பது chain-of-thought உதாரணங்களைச் சார்ந்துள்ளது. இவை அதிகச் செலவு மிக்கவை மற்றும் பெரும்பாலும் குறையுள்ளவை. ஒரு மாடல் தவறான விளக்கத்தைப் பின்பற்றினால், அது தவறான விஷயத்தைக் கற்றுக்கொள்ளும்.
- Reinforcement learning வெகுமதிகளைப் (rewards) பயன்படுத்துகிறது. ஒரு வெகுமதி ஒரு ஒற்றை எண்ணைத் தருகிறது. இது credit assignment செய்வதைக் கடினமாக்குகிறது. மாடலுக்கு முடிவு (outcome) தெரியும், ஆனால் எந்த குறிப்பிட்ட படிநிலை தோல்வியடைந்தது என்பது தெரியாது.
Rubrics இந்தப் பிரச்சனையைத் தீர்க்கின்றன. அவை ஒரு எளிய மதிப்பெண்ணுக்கும் முழுமையான விளக்கத்திற்கும் இடையில் அமைகின்றன.
இந்த செயல்முறை இரண்டு நிலைகளில் செயல்படுகிறது:
- அமைப்பு குறிப்பிட்ட பணிகளுக்கான rubrics-களை உருவாக்குகிறது. அறிவியலில், இது அலகுகள் (units) அல்லது அனுமானங்களைச் (assumptions) சரிபார்ப்பதைக் குறிக்கிறது.
- ஆசிரியர் மாடல் (teacher model) இந்த rubrics-களைப் பயன்படுத்தி மாணவர் மாடலுக்கு (student model) வழிகாட்டுகிறது. இது token-level வழிகாட்டலை வழங்குகிறது. ஒரு விளக்கம் எங்கே பலவீனமாக உள்ளது என்பதை rubric மாடலுக்குத் துல்லியமாகச் சொல்கிறது.
இந்த அணுகுமுறை மூன்று நன்மைகளை வழங்குகிறது:
- சிறந்த credit assignment. மாடல் ஒரு முழு முயற்சியையும் நிராகரிப்பதற்குப் பதிலாக, குறிப்பிட்ட பிழைகளிலிருந்து கற்றுக்கொள்கிறது.
- மீண்டும் பயன்படுத்தக்கூடிய மேற்பார்வை (Reusable supervision). ஒரு rubric பலவிதமான பதில்களுக்கு வழிகாட்ட முடியும்.
- சிறந்த அளவிடுதல் (Better scaling). ஒரு 'pass' அல்லது 'fail' என்ற லேபிளை விட, பல படிநிலைகளைக் கொண்ட சிக்கலான பணிகளை rubrics சிறப்பாகக் கையாளுகின்றன.
அறிவியல் ரீதியான காரணத் திறன்களில் (science reasoning tasks), இந்த முறை GRPO மற்றும் OPSD போன்ற தற்போதுள்ள மாடல்களை விடச் சிறந்தது என்று இந்த ஆய்வறிக்கை காட்டுகிறது.
பாடம் தெளிவானது. ஒரு பணி கட்டமைப்பைக் கொண்டிருந்தால், உங்கள் பயிற்சிச் சுழற்சியிலும் (training loop) அந்த கட்டமைப்பைப் பராமரிக்கவும். உங்கள் தரவை மிக விரைவாக ஒரு ஒற்றை எண்ணாகச் சுருக்கிவிடாதீர்கள்.
நீங்கள் rubrics, uncertainty-based planning அல்லது programmatic explanations ஆகியவற்றைப் பயன்படுத்தினாலும், இலக்கு ஒன்றுதான். மறைமுகமான நடத்தையை வெளிப்படையான சிக்னல்களாக (explicit signals) மாற்றுவதே அது.
நீங்கள் reasoning systems-களை உருவாக்குகிறீர்கள் என்றால், உங்கள் rubrics-களை நேரடியாகக் குறியீடாக்கவும் (encode). இறுதி மதிப்பெண்ணை மட்டும் நம்பியிருக்க வேண்டாம்.
Optional learning community: https://t.me/GyaanSetuAi