AI-ஐச் சாத்தியமாக்கிய மூன்று யோசனைகள்

நவீன AI ஒரு மந்திரம் போலத் தோன்றுகிறது. நீங்கள் ஒரு வாக்கியத்தைத் தட்டச்சு செய்தால், ஒரு இயந்திரம் அதற்குப் பதிலளிக்கிறது. இது ஒரு விசித்திரமான அனுபவமாகத் தோன்றுகிறது.

ஆனால் அது அப்படி இல்லை.

பொறியாளர்கள் குறிப்பிட்ட சிக்கல்களைத் தீர்த்ததால் தான் நவீன AI உருவாகியுள்ளது. அவர்கள் பழுதடைந்த நெட்வொர்க்குகளைக் கண்டறிந்து அவற்றைச் சரிசெய்தார்கள்.

Transformer-ஐ உருவாக்கிய மூன்று பொறியியல் தீர்வுகள் இதோ.

  1. Skip Connections

2014-இல், ஆராய்ச்சியாளர்கள் neural networks-ஐ இன்னும் ஆழமாக்க முயன்றனர். அதிக அடுக்குகளைக் (layers) கொண்டிருப்பது சிறந்த முடிவுகளைத் தரும் என்று அவர்கள் நினைத்தார்கள். ஆனால் அது தோல்வியடைந்தது. ஆழமான நெட்வொர்க்குகள் உண்மையில் மோசமான செயல்திறனையே காட்டின.

நெட்வொர்க்கைப் பயிற்றுவிக்கப் பயன்படுத்தப்படும் error signal, பல அடுக்குகளின் வழியாகச் செல்லும்போது சுருங்கி மறைந்துவிடும் அல்லது மிக அதிகமாகிவிடும். இதனால் ஆரம்ப அடுக்குகளுக்குப் பயனுள்ள பின்னூட்டம் (feedback) கிடைக்கவில்லை.

இதற்கான தீர்வு எளிமையானது. ஒவ்வொரு அடுக்கையும் உள்ளீட்டை (input) மாற்றச் செய்யாமல், உள்ளீட்டை அப்படியே அடுத்தடுத்த அடுக்குகளுக்குத் தாண்டிச் செல்ல (skip ahead) அனுமதிப்பதே தீர்வாக அமைந்தது.

ஒரு ResNet block-இல், அசல் உள்ளீட்டை (original input) வெளியீட்டுடன் (output) மீண்டும் சேர்க்கிறீர்கள். இது சிக்னல் பயணிப்பதற்கு ஒரு நேரடிப் பாதையை உருவாக்குகிறது. இதனால் அதிக அடுக்குகளைச் சேர்ப்பது இனி அமைப்பைச் சிதைக்காது. ஒரு அடுக்கு பயனுள்ளதாக இல்லையென்றால், அது உள்ளீட்டை மாற்றாமல் அப்படியே கடத்திவிடும்.

  1. Normalization

தரவுகள் ஒரு நெட்வொர்க்கின் வழியாக நகரும்போது, எண்கள் விலகத் தொடங்கும் (drift). ஒரு அடுக்கு 0.01 என்று வெளியிடும்போது, அடுத்த அடுக்கு 5000 என்று வெளியிடும். எண்கள் இவ்வளவு தீவிரமான நிலையை அடையும்போது, கற்றல் (learning) நின்றுவிடுகிறது.

Normalization இந்தச் சிக்கலை அளவைச் சீரமைப்பதன் மூலம் சரிசெய்கிறது. இது எண்களை பூஜ்ஜியத்தைச் சுற்றி மையப்படுத்துகிறது மற்றும் அவற்றை ஒரு நிலையான வரம்பிற்குள் (consistent range) மாற்றுகிறது.

இது கணிதச் செயல்பாடுகளைத் (math) நிலையாக வைக்கிறது. இதன் மூலம் நீங்கள் அதிக learning rates-களைப் பயன்படுத்தவும், மிக வேகமாகப் பயிற்றுவிக்கவும் முடியும். இது பிழைத்திருத்தத்திற்கு (debugging) ஆகும் எண்ணற்ற நேரத்தைச் சேமிக்கும் ஒரு நடைமுறைத் தீர்வாகும்.

  1. Attention

பழைய மாடல்கள் உரையை ஒவ்வொரு சொல்லாகப் படித்தன. சொற்களை இணையாக (parallel) கையாள முடியாததால் இது மெதுவாக இருந்தது. மேலும், ஒரு வாக்கியத்தின் முடிவை அடையும்போது மாடல் அதன் தொடக்கத்தை மறந்துவிடுவதால், இது மறதித் தன்மையுடனும் இருந்தது.

Attention இதை மாற்றுகிறது. வரிசைப்படிப் படிப்பதற்குப் பதிலாக, ஒரு வாக்கியத்தில் உள்ள ஒவ்வொரு சொல்லும் மற்ற அனைத்துச் சொற்களையும் ஒரே நேரத்தில் பார்க்கிறது.

"it" என்ற சொல், அது எவ்வளவு தூரத்தில் இருந்தாலும், அது குறிக்கும் பெயர்ச்சொல்லுடன் (noun) நேரடியாகத் தொடர்பு கொள்ள முடியும். சொற்கள் ஒரு வரிசைமுறையைச் சார்ந்து இல்லாததால், நீங்கள் GPU-வைப் பயன்படுத்தி அனைத்தையும் ஒரே நேரத்தில் கணக்கிட முடியும்.

Transformer இந்த மூன்றையும் ஒருங்கிணைக்கிறது. இது skip connections-களால் சூழப்பட்ட attention blocks-களைப் பயன்படுத்துகிறது, இடையில் normalization செய்யப்படுகிறது.

AI-க்கு நுண்ணறிவைப் புரிந்துகொள்வதில் ஒரு மிகப்பெரிய முன்னேற்றம் தேவையில்லை. பழுதடைந்த அமைப்புகளுக்கான மூன்று புத்திசாலித்தனமான தீர்வுகள் மட்டுமே தேவைப்பட்டன.

ஆதாரம்: https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi