AI பயிற்சியில் கட்டமைக்கப்பட்ட பின்னூட்டம் ஏன் முக்கியமானது?

Translated for your language. Read the original.

AI-assisted draft.

நேற்று முன் தினம்2min read

AI பயிற்சியில் ஏன் கட்டமைக்கப்பட்ட பின்னூட்டம் (Structured Feedback) முக்கியமானது

ஆராய்ச்சியாளர்கள் AI பயிற்சியில் எளிய மதிப்பெண்களைப் பயன்படுத்துவதிலிருந்து விலகி வருகின்றனர். அவர்கள் இப்போது அதிகத் தரவுகளைக் கொண்ட சிக்னல்களைப் (signals) பயன்படுத்துகின்றனர்.

"Rethinking Reward Supervision" என்ற தலைப்பிலான புதிய ஆய்வறிக்கை, இந்த மாற்றம் ஏன் முக்கியமானது என்பதைக் காட்டுகிறது. பெரும்பாலான பயிற்சி முறைகள் தரவுகளை ஒரு ஒற்றை எண்ணாகச் சுருக்குகின்றன. ஒரு ஒற்றை மதிப்பெண் ஒரு பதில் சரியா அல்லது தவறா என்பதை மட்டுமே சொல்கிறது. அது ஏன் சரியானது அல்லது தவறானது என்பதைச் சொல்லாது.

தற்போதைய முறைகளில் வரம்புகள் உள்ளன:

Supervised distillation என்பது chain-of-thought உதாரணங்களைச் சார்ந்துள்ளது. இவை அதிகச் செலவு மிக்கவை மற்றும் பெரும்பாலும் குறையுள்ளவை. ஒரு மாடல் தவறான விளக்கத்தைப் பின்பற்றினால், அது தவறான விஷயத்தைக் கற்றுக்கொள்ளும்.
Reinforcement learning வெகுமதிகளைப் (rewards) பயன்படுத்துகிறது. ஒரு வெகுமதி ஒரு ஒற்றை எண்ணைத் தருகிறது. இது credit assignment செய்வதைக் கடினமாக்குகிறது. மாடலுக்கு முடிவு (outcome) தெரியும், ஆனால் எந்த குறிப்பிட்ட படிநிலை தோல்வியடைந்தது என்பது தெரியாது.

Rubrics இந்தப் பிரச்சனையைத் தீர்க்கின்றன. அவை ஒரு எளிய மதிப்பெண்ணுக்கும் முழுமையான விளக்கத்திற்கும் இடையில் அமைகின்றன.

இந்த செயல்முறை இரண்டு நிலைகளில் செயல்படுகிறது:

அமைப்பு குறிப்பிட்ட பணிகளுக்கான rubrics-களை உருவாக்குகிறது. அறிவியலில், இது அலகுகள் (units) அல்லது அனுமானங்களைச் (assumptions) சரிபார்ப்பதைக் குறிக்கிறது.
ஆசிரியர் மாடல் (teacher model) இந்த rubrics-களைப் பயன்படுத்தி மாணவர் மாடலுக்கு (student model) வழிகாட்டுகிறது. இது token-level வழிகாட்டலை வழங்குகிறது. ஒரு விளக்கம் எங்கே பலவீனமாக உள்ளது என்பதை rubric மாடலுக்குத் துல்லியமாகச் சொல்கிறது.

இந்த அணுகுமுறை மூன்று நன்மைகளை வழங்குகிறது:

சிறந்த credit assignment. மாடல் ஒரு முழு முயற்சியையும் நிராகரிப்பதற்குப் பதிலாக, குறிப்பிட்ட பிழைகளிலிருந்து கற்றுக்கொள்கிறது.
மீண்டும் பயன்படுத்தக்கூடிய மேற்பார்வை (Reusable supervision). ஒரு rubric பலவிதமான பதில்களுக்கு வழிகாட்ட முடியும்.
சிறந்த அளவிடுதல் (Better scaling). ஒரு 'pass' அல்லது 'fail' என்ற லேபிளை விட, பல படிநிலைகளைக் கொண்ட சிக்கலான பணிகளை rubrics சிறப்பாகக் கையாளுகின்றன.

அறிவியல் ரீதியான காரணத் திறன்களில் (science reasoning tasks), இந்த முறை GRPO மற்றும் OPSD போன்ற தற்போதுள்ள மாடல்களை விடச் சிறந்தது என்று இந்த ஆய்வறிக்கை காட்டுகிறது.

பாடம் தெளிவானது. ஒரு பணி கட்டமைப்பைக் கொண்டிருந்தால், உங்கள் பயிற்சிச் சுழற்சியிலும் (training loop) அந்த கட்டமைப்பைப் பராமரிக்கவும். உங்கள் தரவை மிக விரைவாக ஒரு ஒற்றை எண்ணாகச் சுருக்கிவிடாதீர்கள்.

நீங்கள் rubrics, uncertainty-based planning அல்லது programmatic explanations ஆகியவற்றைப் பயன்படுத்தினாலும், இலக்கு ஒன்றுதான். மறைமுகமான நடத்தையை வெளிப்படையான சிக்னல்களாக (explicit signals) மாற்றுவதே அது.

நீங்கள் reasoning systems-களை உருவாக்குகிறீர்கள் என்றால், உங்கள் rubrics-களை நேரடியாகக் குறியீடாக்கவும் (encode). இறுதி மதிப்பெண்ணை மட்டும் நம்பியிருக்க வேண்டாம்.

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-structured-feedback-is-showing-up-in-recent-llm-training-papers-1no1

Optional learning community: https://t.me/GyaanSetuAi

AI பயிற்சியில் கட்டமைக்கப்பட்ட பின்னூட்டம் ஏன் முக்கியமானது?

Continue reading

AI என்பது வெறும் ப்ராம்ப்ட்கள் மட்டுமல்ல

AI என்பது வெறும் ப்ராம்ப்ட்களைத் தாண்டியது

AI-க்கான ஒருங்கிணைந்த வெகுமதி மாதிரிகள்

AI ப்ராம்ப்ட்களுக்கான மார்க்‌டவுன் ஃபார்மேட்டிங்

OpenAI மற்றும் Anthropic எவ்வாறு AI அமைப்புகளை வடிவமைக்கின்றன