𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻-𝗝𝗮𝗰𝗼𝗯𝗶 கோட்பாடு நரம்பியல் கட்டமைப்புகளை (Neural Architectures) இணைக்கிறது

நரம்பியல் வலைப்பின்னல்கள் (Neural networks) பெரும்பாலும் தனித்தனி தந்திரங்களின் தொகுப்பாகவே தோன்றுகின்றன.

ResNets 'skip connections'-ஐப் பயன்படுத்துகின்றன. Transformers 'attention'-ஐப் பயன்படுத்துகின்றன. RNNs 'recurrence'-ஐப் பயன்படுத்துகின்றன. ஒவ்வொரு மாதிரியும் (model) அதன் சொந்த விதிகள் மற்றும் கணிதத்தைக் கொண்டுள்ளது. இது முழுமையான பிம்பத்தைப் பார்ப்பதை கடினமாக்குகிறது.

புதிய ஆராய்ச்சி இதை மாற்றுகிறது. ResNets, Transformers மற்றும் RNNs ஆகியவை உண்மையில் ஒரே கணிதப் பொருளாகவே (mathematical object) உள்ளன என்பதை இது காட்டுகிறது. இவை அனைத்தும் Hamilton-Jacobi சமன்பாடுகளைப் பின்பற்றுகின்றன.

இது எவ்வாறு செயல்படுகிறது என்பது இங்கே:

  • Gradient descent என்பது ஒரு வகை இயற்பியல் பரிணாமம் (physics evolution).
  • ஒவ்வொரு பயிற்சிப் படிநிலையும் (training step) எடைகளை (weights) ஒரு திரவம் போல நகர்த்துகிறது.
  • ஆழம் (Depth), attention மற்றும் recurrence ஆகியவை ஒரு கணக்கீட்டில் காலப் படிநிலைகளாக (time steps) செயல்படுகின்றன.
  • ஒரு ஒற்றை அளவுரு (parameter), ஒரு மாதிரி எவ்வளவு மென்மையாகவும் (smooth) அல்லது அடர்த்தியற்றதாகவும் (sparse) இருக்கும் என்பதைக் கட்டுப்படுத்துகிறது.

இந்த கோட்பாடு நான்கு வெவ்வேறு துறைகளை இணைக்கிறது: நரம்பியல் வலைப்பின்னல்கள் (neural networks), ட்ராபிகல் அல்ஜீப்ரா (tropical algebra), PDEs மற்றும் கன்வெக்ஸ் ஆப்டிமைசேஷன் (convex optimization).

இது உங்களுக்கு ஏன் முக்கியமானது?

தற்போதைய அளவுகோல்கள் (benchmarks) பெரும்பாலும் துல்லியத்தில் (accuracy) மட்டுமே கவனம் செலுத்துகின்றன. இந்த கட்டமைப்பு மாதிரிகளை உருவாக்குவதற்கு ஒரு புதிய வழியைப் பரிந்துரைக்கிறது. அடுக்குகளை (layers) மட்டும் சேர்ப்பதற்குப் பதிலாக, மென்மை மற்றும் நிலைத்தன்மையை (smoothness and stability) சமநிலைப்படுத்த நீங்கள் கணிதத்தை மாற்றியமைக்கலாம் (tune).

ஒரு மாதிரி எவ்வளவு சிறப்பாகப் பொதுப்படையான தன்மையைப் (generalize) பெறும் என்பதையும் இந்த கோட்பாடு கணிக்கிறது. உங்கள் கட்டமைப்பில் (architecture) பயன்படுத்தப்படும் குறிப்பிட்ட கணிதத்திற்கும், உங்களுக்குத் தேவையான தரவின் அளவுக்கும் இடையே இது தொடர்பை ஏற்படுத்துகிறது.

இன்னும் சில இடைவெளிகள் உள்ளன. பெரும்பாலான மாதிரிகள் ReLU-ஐப் பயன்படுத்துகின்றன, ஆனால் இந்த கணிதம் log-sum-exp அடுக்குகளுடன் சிறப்பாகச் செயல்படுகிறது. இந்த இயற்பியல் விதிகள் செயல்திறனை மேம்படுத்துகின்றனவா என்பதைப் பார்க்க நமக்கு இன்னும் கூடுதலான நிஜ உலகச் சோதனைகள் தேவைப்படுகின்றன.

கட்டமைப்புகளை வெவ்வேறு வகையான அடுக்குகளாகப் பார்ப்பதை நாம் நிறுத்த வேண்டும். அவற்றை ஒரே சமன்பாட்டைத் தீர்ப்பதற்கான வெவ்வேறு வழிகளாக நாம் பார்க்க வேண்டும்.

ஆதாரம்: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi