Three Rounds of Training Make a Chatbot

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ആഴ്ച മുമ്പ്2min read

ഒരു ചാറ്റ്ബോട്ടിനെ രൂപപ്പെടുത്തുന്ന മൂന്ന് ഘട്ടങ്ങളായുള്ള പരിശീലനം

ഒരു Transformer നിർമ്മിക്കുന്നത് മാത്രം പോരാ. ഇന്റർനെറ്റിലെ മുഴുവൻ വിവരങ്ങളും അതിലേക്ക് പകർത്തി നൽകിയാലും, കമ്പ്യൂട്ടിംഗിനായി ദശലക്ഷക്കണക്കിന് രൂപ ചെലവഴിച്ചാലും, ഒരു ലളിതമായ ചോദ്യത്തിന് പോലും ഉത്തരം നൽകാൻ കഴിയാത്ത ഒരു യന്ത്രമായി അത് അവശേഷിച്ചേക്കാം.

ഒരു റോ (raw) മോഡൽ വെറുമൊരു ടെക്സ്റ്റ് അനുകരണമാണ് (text mimic). പാറ്റേണുകൾ അടിസ്ഥാനമാക്കി അടുത്ത വാക്ക് പ്രവചിക്കുക മാത്രമാണ് അത് ചെയ്യുന്നത്. നിങ്ങൾ "എന്റെ റൂട്ടർ എങ്ങനെ റീസെറ്റ് ചെയ്യാം?" എന്ന് ചോദിച്ചാൽ, "എന്റെ പാസ്‌വേഡ് എങ്ങനെ മാറ്റാം?" എന്നിങ്ങനെയുള്ള കൂടുതൽ ചോദ്യങ്ങൾ നൽകി അത് മറുപടി നൽകിയേക്കാം. നിങ്ങൾക്ക് സഹായം വേണമെന്ന കാര്യം അതിന് അറിയില്ല. ഇന്റർനെറ്റിൽ ഒരു വാചകം എങ്ങനെ തുടരുന്നു എന്ന് മാത്രമേ അതിന് അറിയാവൂ.

ഈ പ്രവചന യന്ത്രത്തെ (predictor) ഒരു ചാറ്റ്ബോട്ട് ആക്കി മാറ്റാൻ മൂന്ന് ഘട്ടങ്ങളായുള്ള പരിശീലനം ആവശ്യമാണ്.

Pretraining (എഞ്ചിൻ) നിങ്ങൾ മോഡലിന് കോടിക്കണക്കിന് വാക്കുകൾ കാണിച്ചുകൊടുക്കുന്നു. അവസാന വാക്ക് മറച്ചുവെച്ച് അത് പ്രവചിക്കാൻ നിങ്ങൾ അതിനെ പ്രേരിപ്പിക്കുന്നു. ഇത് അറിവ് പടുത്തുയർത്താൻ സഹായിക്കുന്നു. വസ്തുതകൾ, വ്യാകരണം, ലോജിക് എന്നിവ ഇതിലൂടെ അത് പഠിക്കുന്നു. ഡാറ്റ സ്വയം ലേബൽ ചെയ്യപ്പെടുന്നതിനാൽ ഇത് ഫലപ്രദമാകുന്നു. ഡാറ്റയുടെ അളവ് വർദ്ധിപ്പിക്കുന്നത് ഇതിനെ കൂടുതൽ പ്രവചിക്കാവുന്നതാക്കുന്നു (predictable). കൂടുതൽ ഡാറ്റയും കമ്പ്യൂട്ടിംഗ് ശേഷിയും മികച്ച ഫലങ്ങളിലേക്ക് നയിക്കുന്നു.
Instruction Tuning (സ്ക്രിപ്റ്റ്) ബേസ് മോഡലിന് (base model) എല്ലാം അറിയാമെങ്കിലും അതിന് ഒരു ലക്ഷ്യവുമില്ല. ഈ ഘട്ടത്തിൽ, ഒരു പ്രോംപ്റ്റും (prompt) അതിന് അനുയോജ്യമായ ഒരു മനുഷ്യന്റെ മറുപടിയും അടങ്ങിയ ആയിരക്കണക്കിന് ഉദാഹരണങ്ങൾ നിങ്ങൾ അതിന് കാണിച്ചുകൊടുക്കുന്നു. ഇത് പുതിയ അറിവുകൾ നൽകുന്നില്ല, പകരം മോഡലിന് പുതിയൊരു പെരുമാറ്റം പഠിപ്പിച്ചു കൊടുക്കുകയാണ് ചെയ്യുന്നത്. നിങ്ങൾ ഒരു നടന് സ്ക്രിപ്റ്റ് നൽകുന്നത് പോലെയാണിത്. വെറുമൊരു വാചകം പൂർത്തിയാക്കുന്നതിന് പകരം ഒരു സഹായകരമായ അസിസ്റ്റന്റിനെപ്പോലെ പ്രവർത്തിക്കാൻ ഇത് പഠിക്കുന്നു.
Preference Tuning (മര്യാദകൾ) സ്ക്രിപ്റ്റുകൾക്ക് പരിമിതികളുണ്ട്. എല്ലാ സാഹചര്യങ്ങൾക്കും നിങ്ങൾക്ക് നിയമങ്ങൾ എഴുതാൻ കഴിയില്ല. ഈ ഘട്ടത്തിൽ, രണ്ട് വ്യത്യസ്ത ഉത്തരങ്ങൾ മോഡലിന് കാണിച്ചുകൊടുക്കുകയും അതിൽ മികച്ചത് ഏതാണെന്ന് ഒരു മനുഷ്യനെക്കൊണ്ട് തിരഞ്ഞെടുപ്പിക്കുകയും ചെയ്യുന്നു. മനുഷ്യരുടെ താൽപ്പര്യങ്ങൾക്കനുസരിച്ച് ഉയർന്ന സ്കോർ നേടാൻ മോഡൽ പഠിക്കുന്നു. ഇത് മോഡലിന് അതിന്റെ ശൈലി (tone), മര്യാദ, സുരക്ഷാ പരിധികൾ എന്നിവ നൽകുന്നു.

ചുരുക്കത്തിൽ പറഞ്ഞാൽ:

Pretraining അറിവ് പടുത്തുയർത്തുന്നു.
Instruction tuning ഒരു സഹായിയെ ജനക്കൂട്ടത്തിൽ നിന്ന് വേർതിരിച്ചെടുക്കുന്നു.
Preference tuning വിവേചനബുദ്ധിയും മര്യാദകളും നൽകുന്നു.

ഒരു ചാറ്റ് വിൻഡോയിൽ നിങ്ങൾ കാണുന്ന വ്യക്തിത്വം എന്നത് വെറുമൊരു വാക്ക് പ്രവചന യന്ത്രത്തിന് മുകളിൽ നൽകിയിട്ടുള്ള ഒരു നേർത്ത പാളി മാത്രമാണ്. ഇത് നിർമ്മിക്കാൻ ബുദ്ധിശക്തിയെക്കുറിച്ചുള്ള (theory of intelligence) വലിയ സിദ്ധാന്തങ്ങളൊന്നും നമുക്ക് ആവശ്യമില്ലായിരുന്നു. നമുക്ക് വേണ്ടത് ഒരു ലളിതമായ ലക്ഷ്യവും, വലിയ തോതിലുള്ള ഡാറ്റയും (scale), രണ്ട് ഘട്ടങ്ങളായുള്ള പരിശീലനവും മാത്രമാണ്.

Source: https://dev.to/karthi_raman_02ec8161bda0/three-rounds-of-training-turn-a-word-predictor-into-a-chatbot-none-of-them-are-magic-395i

Optional learning community: https://t.me/GyaanSetuAi

Three Rounds of Training Make a Chatbot

Continue reading

𝗙𝗿𝗼𝗺 𝗖𝗵𝗮𝘁𝗚𝗣𝗧 𝘁𝗼 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗧𝘄𝗼 𝗬𝗲𝗮𝗿𝘀 𝗮𝘀 𝗮𝗻 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿

Managed AI Agents Are The Real Opportunity

വെബ്സൈറ്റ് ചാറ്റ്ബോട്ട് ഒരു പരിഹാരമായിരുന്നില്ല, ഒരു താൽക്കാലിക സംവിധാനം മാത്രമായിരുന്നു

The Agentic AI Maturity Model