ഒരു ചാറ്റ്ബോട്ടിനെ രൂപപ്പെടുത്തുന്ന മൂന്ന് ഘട്ടങ്ങളായുള്ള പരിശീലനം

ഒരു Transformer നിർമ്മിക്കുന്നത് മാത്രം പോരാ. ഇന്റർനെറ്റിലെ മുഴുവൻ വിവരങ്ങളും അതിലേക്ക് പകർത്തി നൽകിയാലും, കമ്പ്യൂട്ടിംഗിനായി ദശലക്ഷക്കണക്കിന് രൂപ ചെലവഴിച്ചാലും, ഒരു ലളിതമായ ചോദ്യത്തിന് പോലും ഉത്തരം നൽകാൻ കഴിയാത്ത ഒരു യന്ത്രമായി അത് അവശേഷിച്ചേക്കാം.

ഒരു റോ (raw) മോഡൽ വെറുമൊരു ടെക്സ്റ്റ് അനുകരണമാണ് (text mimic). പാറ്റേണുകൾ അടിസ്ഥാനമാക്കി അടുത്ത വാക്ക് പ്രവചിക്കുക മാത്രമാണ് അത് ചെയ്യുന്നത്. നിങ്ങൾ "എന്റെ റൂട്ടർ എങ്ങനെ റീസെറ്റ് ചെയ്യാം?" എന്ന് ചോദിച്ചാൽ, "എന്റെ പാസ്‌വേഡ് എങ്ങനെ മാറ്റാം?" എന്നിങ്ങനെയുള്ള കൂടുതൽ ചോദ്യങ്ങൾ നൽകി അത് മറുപടി നൽകിയേക്കാം. നിങ്ങൾക്ക് സഹായം വേണമെന്ന കാര്യം അതിന് അറിയില്ല. ഇന്റർനെറ്റിൽ ഒരു വാചകം എങ്ങനെ തുടരുന്നു എന്ന് മാത്രമേ അതിന് അറിയാവൂ.

ഈ പ്രവചന യന്ത്രത്തെ (predictor) ഒരു ചാറ്റ്ബോട്ട് ആക്കി മാറ്റാൻ മൂന്ന് ഘട്ടങ്ങളായുള്ള പരിശീലനം ആവശ്യമാണ്.

  1. Pretraining (എഞ്ചിൻ) നിങ്ങൾ മോഡലിന് കോടിക്കണക്കിന് വാക്കുകൾ കാണിച്ചുകൊടുക്കുന്നു. അവസാന വാക്ക് മറച്ചുവെച്ച് അത് പ്രവചിക്കാൻ നിങ്ങൾ അതിനെ പ്രേരിപ്പിക്കുന്നു. ഇത് അറിവ് പടുത്തുയർത്താൻ സഹായിക്കുന്നു. വസ്തുതകൾ, വ്യാകരണം, ലോജിക് എന്നിവ ഇതിലൂടെ അത് പഠിക്കുന്നു. ഡാറ്റ സ്വയം ലേബൽ ചെയ്യപ്പെടുന്നതിനാൽ ഇത് ഫലപ്രദമാകുന്നു. ഡാറ്റയുടെ അളവ് വർദ്ധിപ്പിക്കുന്നത് ഇതിനെ കൂടുതൽ പ്രവചിക്കാവുന്നതാക്കുന്നു (predictable). കൂടുതൽ ഡാറ്റയും കമ്പ്യൂട്ടിംഗ് ശേഷിയും മികച്ച ഫലങ്ങളിലേക്ക് നയിക്കുന്നു.

  2. Instruction Tuning (സ്ക്രിപ്റ്റ്) ബേസ് മോഡലിന് (base model) എല്ലാം അറിയാമെങ്കിലും അതിന് ഒരു ലക്ഷ്യവുമില്ല. ഈ ഘട്ടത്തിൽ, ഒരു പ്രോംപ്റ്റും (prompt) അതിന് അനുയോജ്യമായ ഒരു മനുഷ്യന്റെ മറുപടിയും അടങ്ങിയ ആയിരക്കണക്കിന് ഉദാഹരണങ്ങൾ നിങ്ങൾ അതിന് കാണിച്ചുകൊടുക്കുന്നു. ഇത് പുതിയ അറിവുകൾ നൽകുന്നില്ല, പകരം മോഡലിന് പുതിയൊരു പെരുമാറ്റം പഠിപ്പിച്ചു കൊടുക്കുകയാണ് ചെയ്യുന്നത്. നിങ്ങൾ ഒരു നടന് സ്ക്രിപ്റ്റ് നൽകുന്നത് പോലെയാണിത്. വെറുമൊരു വാചകം പൂർത്തിയാക്കുന്നതിന് പകരം ഒരു സഹായകരമായ അസിസ്റ്റന്റിനെപ്പോലെ പ്രവർത്തിക്കാൻ ഇത് പഠിക്കുന്നു.

  3. Preference Tuning (മര്യാദകൾ) സ്ക്രിപ്റ്റുകൾക്ക് പരിമിതികളുണ്ട്. എല്ലാ സാഹചര്യങ്ങൾക്കും നിങ്ങൾക്ക് നിയമങ്ങൾ എഴുതാൻ കഴിയില്ല. ഈ ഘട്ടത്തിൽ, രണ്ട് വ്യത്യസ്ത ഉത്തരങ്ങൾ മോഡലിന് കാണിച്ചുകൊടുക്കുകയും അതിൽ മികച്ചത് ഏതാണെന്ന് ഒരു മനുഷ്യനെക്കൊണ്ട് തിരഞ്ഞെടുപ്പിക്കുകയും ചെയ്യുന്നു. മനുഷ്യരുടെ താൽപ്പര്യങ്ങൾക്കനുസരിച്ച് ഉയർന്ന സ്കോർ നേടാൻ മോഡൽ പഠിക്കുന്നു. ഇത് മോഡലിന് അതിന്റെ ശൈലി (tone), മര്യാദ, സുരക്ഷാ പരിധികൾ എന്നിവ നൽകുന്നു.

ചുരുക്കത്തിൽ പറഞ്ഞാൽ:

  • Pretraining അറിവ് പടുത്തുയർത്തുന്നു.
  • Instruction tuning ഒരു സഹായിയെ ജനക്കൂട്ടത്തിൽ നിന്ന് വേർതിരിച്ചെടുക്കുന്നു.
  • Preference tuning വിവേചനബുദ്ധിയും മര്യാദകളും നൽകുന്നു.

ഒരു ചാറ്റ് വിൻഡോയിൽ നിങ്ങൾ കാണുന്ന വ്യക്തിത്വം എന്നത് വെറുമൊരു വാക്ക് പ്രവചന യന്ത്രത്തിന് മുകളിൽ നൽകിയിട്ടുള്ള ഒരു നേർത്ത പാളി മാത്രമാണ്. ഇത് നിർമ്മിക്കാൻ ബുദ്ധിശക്തിയെക്കുറിച്ചുള്ള (theory of intelligence) വലിയ സിദ്ധാന്തങ്ങളൊന്നും നമുക്ക് ആവശ്യമില്ലായിരുന്നു. നമുക്ക് വേണ്ടത് ഒരു ലളിതമായ ലക്ഷ്യവും, വലിയ തോതിലുള്ള ഡാറ്റയും (scale), രണ്ട് ഘട്ടങ്ങളായുള്ള പരിശീലനവും മാത്രമാണ്.

Source: https://dev.to/karthi_raman_02ec8161bda0/three-rounds-of-training-turn-a-word-predictor-into-a-chatbot-none-of-them-are-magic-395i

Optional learning community: https://t.me/GyaanSetuAi