वे तीन विचार जिन्होंने आधुनिक AI को संभव बनाया

आधुनिक AI जादू जैसा लगता है। आप एक वाक्य टाइप करते हैं और मशीन उसका उत्तर लिख देती है। यह बहुत अनोखा लगता है। लेकिन ऐसा नहीं है।

लगभग हर मॉडल के पीछे का आर्किटेक्चर साधारण इंजीनियरिंग सुधारों पर टिका है। इन सुधारों ने विशिष्ट समस्याओं को हल किया। इसमें कोई गुप्त नुस्खा (secret sauce) नहीं है। इसमें बस तीन प्रमुख सुधार (patches) हैं।

  1. Skip Connections

2014 के आसपास, इंजीनियरों ने न्यूरल नेटवर्क (neural networks) को और गहरा बनाने की कोशिश की। उन्हें लगा कि अधिक लेयर्स (layers) का मतलब बेहतर परिणाम होगा। वे गलत थे। गहरे नेटवर्क अक्सर खराब प्रदर्शन करते थे क्योंकि एरर सिग्नल (error signal) शुरुआती लेयर्स तक नहीं पहुँच पाता था। सिग्नल या तो शून्य हो जाता था या बहुत अधिक बढ़ (explode) जाता था।

Skip connections ने इसे ठीक कर दिया। हर लेयर को इनपुट बदलने के लिए मजबूर करने के बजाय, आप इनपुट को आगे बढ़ने (skip करने) देते हैं। आप मूल इनपुट को आउटपुट में वापस जोड़ देते हैं।

यह दो काम करता है:

  • यह "कुछ न करने" को आसान बनाता है। यदि कोई लेयर कोई मूल्य नहीं जोड़ती है, तो इनपुट बिना किसी बदलाव के आगे बढ़ जाता है।
  • यह एरर सिग्नल के लिए एक सीधा रास्ता बनाता है। सिग्नल को शुरुआती लेयर्स तक पहुँचने के लिए एक एक्सप्रेस लेन मिल जाती है।
  1. Normalization

जैसे-जैसे डेटा नेटवर्क के माध्यम से आगे बढ़ता है, संख्याओं का पैमाना (scale) बदलता रहता है। एक लेयर 0.01 उत्पन्न कर सकती है जबकि अगली 5000। जब संख्याएँ इन चरम सीमाओं तक पहुँच जाती हैं, तो लर्निंग (learning) रुक जाती है।

Normalization वॉल्यूम को संतुलित करता है। यह संख्याओं को शून्य के आसपास फिर से केंद्रित करता है और उन्हें एक सुसंगत पैमाने पर रखता है। इससे आप उच्च लर्निंग रेट (learning rates) का उपयोग कर सकते हैं और बहुत तेज़ी से ट्रेनिंग कर सकते हैं। यह गणित को सही ढंग से काम करने में मदद करता है।

  1. Attention

पुराने मॉडल टेक्स्ट को एक बार में एक शब्द करके पढ़ते थे। यह धीमा था और इसमें जानकारी भूल जाने की समस्या थी। पहले शब्द को आखिरी शब्द से जोड़ने के लिए, जानकारी को बीच के हर शब्द से होकर गुजरना पड़ता था। अंत तक आते-आते, शुरुआत की जानकारी खो जाती थी।

Attention इसे बदल देता है। क्रम में पढ़ने के बजाय, वाक्य का हर शब्द एक साथ वाक्य के अन्य सभी शब्दों को देखता है। शब्द "it" सीधे अपने संज्ञा (noun) को देख सकता है, चाहे वह कितनी भी दूर क्यों न हो।

क्योंकि कुछ भी किसी विशिष्ट क्रम पर निर्भर नहीं है, आप एक साथ सब कुछ प्रोसेस कर सकते हैं। यह ट्रेनिंग को तेज़ और कुशल बनाता है।

Transformer इन तीन विचारों को एक साथ जोड़ने का परिणाम है। यह skip connections में लिपटे हुए attention blocks का उपयोग करता है, जिनके बीच में normalization होता है।

AI कोई जादू-टोना नहीं है। यह लोगों द्वारा किसी चीज़ के टूटे होने को पहचानने और उसे सरल गणित से ठीक करने का परिणाम है।

Source: https://dev.to/karthi_raman_02ec8161bda/three-ideas-made-modern-ai-possible-none-of-them-are-magic-ida

Optional learning community: https://t.me/GyaanSetuAi