𝗧𝗵𝗿𝗲𝗲 𝗜𝗱𝗲𝗮𝘀 𝗧𝗵𝗮𝘁 𝗠𝗮𝗱𝗲 𝗔𝗜 𝗣𝗼𝘀𝘀𝗶𝗯𝗹𝗲 (AI शक्य करणारे तीन विचार)
आधुनिक AI एखाद्या जादूसारखे वाटते. तुम्ही एक वाक्य टाईप करता आणि मशीन त्याचे उत्तर देते. हे खूप विलक्षण वाटते.
पण तसे नाहीये.
आधुनिक AI अस्तित्वात आहे कारण इंजिनिअर्सनी विशिष्ट समस्या सोडवल्या आहेत. त्यांनी दोष असलेले नेटवर्क्स शोधले आणि ते दुरुस्त केले.
Transformer तयार करण्यासाठी वापरलेले तीन इंजिनिअरिंग उपाय खालीलप्रमाणे आहेत.
- Skip Connections
२०१४ मध्ये, संशोधकांनी neural networks अधिक खोल (deeper) करण्याचा प्रयत्न केला. त्यांना वाटले की जास्त लेयर्स म्हणजे अधिक चांगले परिणाम. पण ते अपयशी ठरले. अधिक खोल नेटवर्क्सचे कार्य प्रत्यक्षात अधिक खराब झाले.
नेटवर्क प्रशिक्षित करण्यासाठी वापरला जाणारा error signal अनेक लेयर्समधून प्रवास करताना एकतर शून्य होत असे किंवा खूप मोठा होत असे. सुरुवातीच्या लेयर्सना कोणताही उपयुक्त फीडबॅक मिळत नसे.
उपाय साधा होता. प्रत्येक लेयरला इनपुट बदलण्यास भाग पाडण्याऐवजी, इनपुटला पुढे skip करू दिले.
एका ResNet block मध्ये, तुम्ही मूळ इनपुट आउटपुटमध्ये पुन्हा मिळवता. यामुळे सिग्नल प्रवासासाठी एक थेट मार्ग तयार होतो. यामुळे आता अधिक लेयर्स जोडल्यामुळे सिस्टम बिघडत नाही. जर एखादा लेयर उपयुक्त नसेल, तर तो इनपुटला कोणताही बदल न करता पुढे पाठवू शकतो.
- Normalization
जसा डेटा नेटवर्कमधून प्रवास करतो, तसे संख्यांमध्ये बदल (drift) होत जातात. एखादा लेयर 0.01 आउटपुट देऊ शकतो तर पुढचा लेयर 5000 देऊ शकतो. जेव्हा संख्या या टोकाच्या पातळीवर पोहोचतात, तेव्हा शिकण्याची प्रक्रिया (learning) थांबते.
Normalization हे प्रमाण संतुलित करून ही समस्या सोडवते. हे संख्यांना शून्याच्या आसपास पुन्हा केंद्रित करते आणि त्यांना एका सुसंगत रेंजमध्ये स्केल करते.
यामुळे गणिती प्रक्रिया स्थिर राहते. यामुळे तुम्ही उच्च learning rates वापरू शकता आणि खूप वेगाने प्रशिक्षण देऊ शकता. हा एक व्यावहारिक उपाय आहे ज्यामुळे डिबगिंगमधील असंख्य तास वाचतात.
- Attention
जुने मॉडेल्स मजकूर एका वेळी एक शब्द वाचत असत. हे संथ होते कारण तुम्ही शब्दांवर समांतर (parallel) प्रक्रिया करू शकत नव्हता. तसेच, मॉडेल वाक्य संपवण्यापूर्वी वाक्याची सुरुवात विसरून जात असल्याने ते विस्मरणशील देखील होते.
Attention हे हे बदलून टाकते. क्रमाने वाचण्याऐवजी, वाक्यातील प्रत्येक शब्द एकाच वेळी इतर प्रत्येक शब्दाकडे पाहतो.
"it" हा शब्द त्याच्या नामाशी (noun) थेट जोडू शकतो, मग तो कितीही लांब का नसेल. शब्द क्रमावर अवलंबून नसल्यामुळे, तुम्ही GPU वापरून सर्व काही एकाच वेळी मोजू (compute) शकता.
Transformer या तिन्ही गोष्टींचे एकत्रीकरण करते. ते skip connections मध्ये गुंफलेले attention blocks वापरते आणि त्यांच्यामध्ये normalization असते.
AI साठी बुद्धिमत्ता समजून घेण्यामध्ये एखाद्या मोठ्या क्रांतीची गरज नव्हती. त्याऐवजी, बिघडलेल्या सिस्टम्ससाठी तीन स्मार्ट उपायांची गरज होती.
Optional learning community: https://t.me/GyaanSetuAi