𝗧𝗵𝗿𝗲𝗲 𝗜𝗱𝗲𝗮𝘀 𝗧𝗵𝗮𝘁 𝗠𝗮𝗱𝗲 𝗠𝗼𝗱𝗲𝗿𝗻 𝗔𝗜 𝗣𝗼𝘀𝘀𝗶𝗯𝗹𝗲
ആധുനിക AI ഒരു മാജിക് പോലെ തോന്നാം. നിങ്ങൾ ഒരു വാചകം ടൈപ്പ് ചെയ്യുന്നു, ഒരു മെഷീൻ അതിന് മറുപടി എഴുതുന്നു. ഇത് വിചിത്രമായി തോന്നാം. എന്നാൽ അങ്ങനെയല്ല.
മിക്കവാറും എല്ലാ മോഡലുകളുടെയും പിന്നിലെ ആർക്കിടെക്ചർ ലളിതമായ എഞ്ചിനീയറിംഗ് പരിഹാരങ്ങളെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്. ഈ പരിഹാരങ്ങൾ പ്രത്യേക പ്രശ്നങ്ങളെയാണ് പരിഹരിച്ചത്. ഇതിൽ രഹസ്യമായ മറ്റൊന്നുമില്ല. മൂന്ന് പ്രധാന പരിഹാരങ്ങൾ (patches) മാത്രമാണുള്ളത്.
- Skip Connections
2014-ഓടെ, എൻജിനീയർമാർ ന്യൂറൽ നെറ്റ്വർക്കുകൾ കൂടുതൽ ആഴത്തിലുള്ളതാക്കാൻ (deeper) ശ്രമിച്ചു. കൂടുതൽ ലെയറുകൾ ഉണ്ടെങ്കിൽ മികച്ച ഫലം ലഭിക്കുമെന്ന് അവർ കരുതി. എന്നാൽ അവർക്ക് തെറ്റിപ്പോയി. എറർ സിഗ്നലുകൾക്ക് (error signal) ആദ്യകാല ലെയറുകളിൽ എത്താൻ കഴിയാത്തതിനാൽ ആഴത്തിലുള്ള നെറ്റ്വർക്കുകൾ പലപ്പോഴും മോശം പ്രകടനം ആണ് കാഴ്ചവെച്ചത്. സിഗ്നലുകൾ ഒന്നുകിൽ ഇല്ലാതാകുകയോ അല്ലെങ്കിൽ അമിതമായി വർദ്ധിക്കുകയോ (explode) ചെയ്യുമായിരുന്നു.
Skip connections ഇത് പരിഹരിച്ചു. ഓരോ ലെയറും ഇൻപുട്ടിൽ മാറ്റം വരുത്തണമെന്ന് നിർബന്ധിക്കുന്നതിന് പകരം, ഇൻപുട്ടിനെ മുന്നോട്ട് ചാടിക്കടക്കാൻ (skip) നിങ്ങൾ അനുവദിക്കുന്നു. നിങ്ങൾ യഥാർത്ഥ ഇൻപുട്ടിനെ ഔട്ട്പുട്ടിലേക്ക് വീണ്ടും ചേർക്കുന്നു.
ഇത് രണ്ട് കാര്യങ്ങൾ ചെയ്യുന്നു:
- ഇത് "ഒന്നും ചെയ്യാതിരിക്കുക" എന്നത് എളുപ്പമാക്കുന്നു. ഒരു ലെയർ യാതൊരു മൂല്യവും കൂട്ടിച്ചേർക്കുന്നില്ലെങ്കിൽ, ഇൻപുട്ട് മാറ്റമില്ലാതെ തന്നെ ഒഴുകിപ്പോകുന്നു.
- ഇത് എറർ സിഗ്നലിന് ഒരു നേരിട്ടുള്ള പാത സൃഷ്ടിക്കുന്നു. സിഗ്നലിന് ആദ്യകാല ലെയറുകളിലേക്ക് വേഗത്തിൽ എത്താൻ ഒരു എക്സ്പ്രസ്സ് ലെയിൻ ലഭിക്കുന്നു.
- Normalization
ഡാറ്റ ഒരു നെറ്റ്വർക്കിലൂടെ നീങ്ങുമ്പോൾ, സംഖ്യകളുടെ അളവ് (scale) മാറിക്കൊണ്ടിരിക്കും. ഒരു ലെയർ 0.01 ഉൽപ്പാദിപ്പിക്കുമ്പോൾ അടുത്ത ലെയർ 5000 ഉൽപ്പാദിപ്പിച്ചേക്കാം. സംഖ്യകൾ ഇത്രയധികം വ്യത്യാസപ്പെടുമ്പോൾ, പഠനം (learning) നിലയ്ക്കുന്നു.
Normalization ഈ അളവുകളെ ക്രമീകരിക്കുന്നു. ഇത് സംഖ്യകളെ പൂജ്യത്തിന് ചുറ്റും കേന്ദ്രീകരിക്കുകയും അവയെ ഒരു സ്ഥിരമായ അളവിൽ നിലനിർത്തുകയും ചെയ്യുന്നു. ഇത് ഉയർന്ന ലേണിംഗ് റേറ്റുകൾ (learning rates) ഉപയോഗിക്കാനും വളരെ വേഗത്തിൽ പരിശീലിപ്പിക്കാനും നിങ്ങളെ അനുവദിക്കുന്നു. ഇത് ഗണിതക്രിയകൾ കൃത്യമായി നടക്കാൻ സഹായിക്കുന്നു.
- Attention
പഴയ മോഡലുകൾ ടെക്സ്റ്റ് ഓരോ വാക്കായിട്ടാണ് വായിച്ചിരുന്നത്. ഇത് സാവധാനത്തിലുള്ളതും കാര്യങ്ങൾ മറന്നുപോകുന്നതുമായ ഒരു രീതിയായിരുന്നു. ആദ്യത്തെ വാക്കിനെ അവസാനത്തെ വാക്കുമായി ബന്ധിപ്പിക്കാൻ, ഇടയിലുള്ള ഓരോ വാക്കിലൂടെയും വിവരങ്ങൾ കടന്നുപോകേണ്ടി വന്നു. അവസാനമാകുമ്പോഴേക്കും തുടക്കം മറന്നുപോയിട്ടുണ്ടാകും.
Attention ഇത് മാറ്റുന്നു. ക്രമമായി വായിക്കുന്നതിന് പകരം, വാചകത്തിലെ ഓരോ വാക്കും ഒരേസമയം മറ്റ് എല്ലാ വാക്കുകളിലേക്കും നോക്കുന്നു. "it" എന്ന വാക്ക് എത്ര അകലെയാണെങ്കിലും അതിന്റെ നാമത്തിലേക്ക് (noun) നേരിട്ട് നോക്കാൻ ഇതിന് കഴിയും.
ഒന്നും ഒരു പ്രത്യേക ക്രമത്തെ ആശ്രയിക്കാത്തതിനാൽ, നിങ്ങൾക്ക് എല്ലാം ഒരേസമയം പ്രോസസ്സ് ചെയ്യാം. ഇത് പരിശീലനം വേഗതയുള്ളതും കാര്യക്ഷമവുമാക്കുന്നു.
ഈ മൂന്ന് ആശയങ്ങൾ കൂട്ടിച്ചേർത്തതിന്റെ ഫലമാണ് Transformer. ഇത് skip connections ഉപയോഗിച്ച് പൊതിഞ്ഞ attention ബ്ലോക്കുകളും അവയ്ക്കിടയിൽ normalization-ഉം ഉപയോഗിക്കുന്നു.
AI എന്നത് മാന്ത്രികവിദ്യയല്ല. എന്തോ തകരാറിലാണെന്ന് തിരിച്ചറിഞ്ഞ് ലളിതമായ ഗണിതശാസ്ത്രത്തിലൂടെ അത് പരിഹരിച്ച മനുഷ്യരുടെ ഫലമാണിത്.
Optional learning community: https://t.me/GyaanSetuAi