மூன்று சுற்றுப் பயிற்சிகள் ஒரு சாட்போட்டை உருவாக்குகின்றன

ஒரு Transformer-ஐ உருவாக்குவது மட்டும் போதாது. நீங்கள் முழு இணையத்தையும் அதில் திணிக்கலாம் மற்றும் கணினித் திறனுக்காக (compute) மில்லியன் கணக்கான டாலர்களைச் செலவிடலாம். இருந்தாலும், ஒரு எளிய கேள்விக்குக்கூடப் பதிலளிக்க முடியாத ஒரு இயந்திரத்தையே நீங்கள் இறுதியில் பெறுவீர்கள்.

ஒரு மூல மாதிரி (raw model) என்பது வெறும் உரையைத் தொடரும் ஒரு நகலெடுக்கும் கருவி மட்டுமே. அது வடிவங்களின் (patterns) அடிப்படையில் அடுத்த வார்த்தையைக் கணிக்கிறது. நீங்கள் "எனது ரூட்டரை (router) நான் எப்படி ரீசெட் செய்வது?" என்று கேட்டால், அது "எனது கடவுச்சொல்லை (password) நான் எப்படி மாற்றுவது?" போன்ற கூடுதல் கேள்விகளையே பதிலளிக்கலாம். உங்களுக்கு உதவி தேவை என்பதை அது அறியாது. இணையம் ஒரு வாக்கியத்தை எப்படித் தொடர்கிறது என்பதை மட்டுமே அது அறியும்.

இந்தத் துல்லியக் கணிப்பியை (predictor) ஒரு சாட்போட்டாக மாற்ற, உங்களுக்கு மூன்று சுற்றுப் பயிற்சிகள் தேவைப்படுகின்றன.

  1. முன்-பயிற்சி (Pretraining - இயந்திரம்) நீங்கள் மாதிரியைக் கோடிக்கணக்கான வார்த்தைகளைக் காட்டிப் பயிற்றுவிக்கிறீர்கள். கடைசி வார்த்தையை மறைத்துவிட்டு, அதை ஊகிச் சொல்லச் சொல்கிறீர்கள். இது அறிவை உருவாக்குகிறது. இது உண்மைகள், இலக்கணம் மற்றும் தர்க்கத்தைக் கற்றுக்கொள்கிறது. தரவுகள் தானாகவே அடையாளப்படுத்தப்படுவதால் (data labels itself) இது செயல்படுகிறது. அளவுகோல் (Scale) இதைத் துல்லியமாக்குகிறது. அதிகத் தரவும் அதிகக் கணினித் திறனும் சிறந்த முடிவுகளுக்கு வழிவகுக்கும்.

  2. அறிவுறுத்தல் சரிசெய்தல் (Instruction Tuning - திரைக்கதை) அடிப்படை மாதிரிக்கு (base model) அனைத்தும் தெரியும், ஆனால் அதற்கு இலக்கு எதுவும் இல்லை. இந்தச் சுற்றில், ஒரு தூண்டுதல் (prompt) மற்றும் அதற்கான ஒரு சிறந்த மனிதப் பதில் ஆகிய ஆயிரக்கணக்கான உதாரணங்களைக் காட்டுகிறீர்கள். இது புதிய அறிவைச் சேர்க்காது. இது மாதிரிக்கு ஒரு புதிய நடத்தையைக் கற்பிக்கிறது. நீங்கள் ஒரு நடிகரிடம் திரைக்கதையைத் தருகிறீர்கள் என்று வைத்துக்கொள்ளுங்கள். வெறும் உரையைத் தொடருவதற்குப் பதிலாக, ஒரு உதவியாளரைப் போலச் செயல்பட அது கற்றுக்கொள்கிறது.

  3. விருப்பத் தெரிவு சரிசெய்தல் (Preference Tuning - நற்பண்புகள்) திரைக்கதைகள் வரம்புக்குட்பட்டவை. ஒவ்வொரு சூழ்நிலைக்கும் உங்களால் விதியைப் படைக்க முடியாது. இந்தச் சுற்றில், நீங்கள் மாதிரிக்கு இரண்டு வெவ்வேறு பதில்களைக் காட்டி, மனிதன் சிறந்ததைத் தேர்ந்தெடுக்கச் செய்கிறீர்கள். மனிதர்களின் விருப்பத்தின் அடிப்படையில் அதிக மதிப்பெண்களைப் பெற மாதிரி கற்றுக்கொள்கிறது. இது மாதிரியின் தொனி (tone), அதன் பணிவு மற்றும் அதன் பாதுகாப்பு வரம்புகளை வழங்குகிறது.

சுருக்கமாகச் சொன்னால்:

  • Pretraining அறிவை உருவாக்குகிறது.
  • Instruction tuning கூட்டத்திலிருந்து ஒரு உதவியாளரைத் தேர்ந்தெடுக்கிறது.
  • Preference tuning தீர்ப்பு வழங்கும் திறனையும் நற்பண்புகளையும் சேர்க்கிறது.

ஒரு சாட் விண்டோவில் நீங்கள் காணும் ஆளுமை என்பது, ஒரு மூல வார்த்தை கணிப்பியின் (raw word predictor) மேல் இருக்கும் ஒரு மெல்லிய அடுக்கு மட்டுமே. இதை உருவாக்க நமக்கு நுண்ணறிவு பற்றிய கோட்பாடு (theory of intelligence) தேவையில்லை. நமக்கு ஒரு எளிய இலக்கு, அளவுகோல் மற்றும் இரண்டு சுற்றுப் பயிற்சிகள் மட்டுமே தேவைப்பட்டன.

மூலம்: https://dev.to/karthi_raman_02ec8161bda0/three-rounds-of-training-turn-a-word-predictor-into-a-chatbot-none-of-them-are-magic-395i

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi