आधुनिक AI शक्य करणारे तीन विचार
आधुनिक AI एखाद्या जादूसारखे वाटते. तुम्ही एक वाक्य टाईप करता आणि मशीन त्याचे उत्तर लिहिते. हे विलक्षण वाटते. पण तसे नाहीये.
जवळपास प्रत्येक मॉडेलमागील आर्किटेक्चर हे साध्या इंजिनिअरिंग सुधारणांवर (engineering fixes) आधारित आहे. या सुधारणांनी विशिष्ट समस्या सोडवल्या. यात कोणताही 'सिक्रेट सॉस' नाही. फक्त तीन महत्त्वाचे उपाय आहेत.
- स्किप कनेक्शन्स (Skip Connections)
२०१४ च्या सुमारास, इंजिनिअर्सनी न्यूरल नेटवर्क्स अधिक खोल (deeper) करण्याचा प्रयत्न केला. त्यांना वाटले की जास्त लेयर्स म्हणजे अधिक चांगले परिणाम. पण ते चुकीचे होते. खोल नेटवर्क्स अनेकदा खराब कामगिरी करत असत कारण 'एरर सिग्नल' (error signal) सुरुवातीच्या लेयर्सपर्यंत पोहोचू शकत नसे. तो सिग्नल एकतर शून्य होऊन नाहीसा व्हायचा किंवा अनियंत्रितपणे वाढायचा (explode).
स्किप कनेक्शन्सनी ही समस्या सोडवली. प्रत्येक लेयरला इनपुट बदलण्यास भाग पाडण्याऐवजी, तुम्ही इनपुटला पुढे जाऊ देता. तुम्ही मूळ इनपुट आउटपुटमध्ये पुन्हा मिळवता.
यामुळे दोन गोष्टी होतात:
- यामुळे "काहीही न करणे" सोपे होते. जर एखादा लेयर कोणतीही उपयुक्तता जोडत नसेल, तर इनपुट न बदलता पुढे प्रवाहित होते.
- हे एरर सिग्नलसाठी एक थेट मार्ग तयार करते. सिग्नलला सुरुवातीच्या लेयर्सपर्यंत पोहोचण्यासाठी एक 'एक्सप्रेस लेन' मिळते.
- नॉर्मलायझेशन (Normalization)
जसे डेटा नेटवर्कमधून प्रवास करतो, तशी संख्यांची व्याप्ती (scale) बदलत जाते. एक लेयर ०.०१ तयार करू शकतो तर पुढचा लेयर ५००० तयार करू शकतो. जेव्हा संख्या या टोकाच्या पातळीवर पोहोचतात, तेव्हा शिकण्याची प्रक्रिया (learning) थांबते.
नॉर्मलायझेशन या व्याप्तीला संतुलित करते. ते संख्यांना शून्याच्या आसपास पुन्हा केंद्रित करते आणि त्यांना एका सुसंगत स्केलवर ठेवते. यामुळे तुम्ही उच्च 'लर्निंग रेट्स' (learning rates) वापरू शकता आणि खूप वेगाने ट्रेनिंग करू शकता. यामुळे गणितीय प्रक्रिया सुरळीत सुरू राहते.
- अटेंशन (Attention)
जुनी मॉडेल्स मजकूर एका वेळी एक शब्द वाचत असत. हे संथ होते आणि त्यात माहिती विसरण्याची शक्यता असायची. पहिल्या शब्दाला शेवटच्या शब्दाशी जोडण्यासाठी, माहितीला मधल्या प्रत्येक शब्दातून जावे लागायचे. शेवटी, सुरुवातीची माहिती हरवून जायची.
अटेंशन हे बदलून टाकते. क्रमाने वाचण्याऐवजी, वाक्यातील प्रत्येक शब्द एकाच वेळी इतर प्रत्येक शब्दाकडे पाहतो. "it" हा शब्द त्याच्या नामाकडे (noun) थेट पाहू शकतो, मग तो कितीही लांब का नसेल.
कोणतीही गोष्ट विशिष्ट क्रमावर अवलंबून नसल्यामुळे, तुम्ही सर्व काही एकाच वेळी प्रक्रिया (process) करू शकता. यामुळे ट्रेनिंग जलद आणि कार्यक्षम होते.
ट्रान्सफॉर्मर (Transformer) हे या तीन कल्पनांचा एकत्रित परिणाम आहे. ते स्किप कनेक्शन्समध्ये गुंफलेले अटेंशन ब्लॉक्स वापरते आणि त्यांच्यामध्ये नॉर्मलायझेशन असते.
AI ही कोणतीही जादू नाही. काहीतरी चुकले आहे हे लक्षात घेऊन ते साध्या गणिताने सुधारणाऱ्या लोकांचा तो परिणाम आहे.
स्रोत: https://dev.to/karthi_raman_02ec8161bda/three-ideas-made-