जब आप Netflix, Spotify, या Amazon पर सर्च करते हैं तो क्या होता है?
आप कुछ शब्द टाइप करते हैं। लाखों गणनाएँ होती हैं।
हर दिन, अरबों लोग चीज़ें सर्च करते हैं।
- Netflix पर Interstellar
- Spotify पर Shape of You
- Amazon पर Wireless Mouse
परिणाम तुरंत दिखाई देते हैं। यह सरल लगता है। लेकिन उस सर्च बॉक्स के पीछे एक विशाल इंजीनियरिंग सिस्टम काम करता है।
आधुनिक सर्च केवल शब्दों का मिलान करने से कहीं अधिक करता है। यह अर्थ को समझता है, इरादे (intent) का अनुमान लगाता है, और मिलीसेकंड में परिणामों को पर्सनलाइज करता है।
यहाँ एक सर्च क्वेरी की यात्रा दी गई है:
क्वेरी प्रीप्रोसेसिंग (Query Preprocessing) सिस्टम आपके वाक्य को टुकड़ों में तोड़ देता है। यह टेक्स्ट को साफ करता है। यह टाइपिंग की गलतियों (typos) को ठीक करता है और पर्यायवाची शब्दों (synonyms) का विस्तार करता है। यदि आप "sneakers" सर्च करते हैं, तो सिस्टम समझ जाता है कि आपका मतलब "shoes" से है।
इन्वर्टेड इंडेक्स (The Inverted Index) Amazon के पास लाखों उत्पाद हैं। यह हर उत्पाद की एक-एक करके जाँच नहीं करता है। इसमें बहुत समय लगेगा। इसके बजाय, यह एक इन्वर्टेड इंडेक्स का उपयोग करता है। यह एक टेक्स्टबुक इंडेक्स की तरह काम करता है। यह कीवर्ड्स को सीधे प्रोडक्ट आईडी (product IDs) से जोड़ता है। इससे लाखों आइटम घटकर कुछ हज़ार रह जाते हैं।
सिमेंटिक सर्च (Semantic Search) पारंपरिक सर्च सटीक शब्दों को खोजता है। आधुनिक सर्च अर्थ को खोजता है। AI शब्दों को संख्याओं में बदल देता है जिन्हें एम्बेडिंग्स (embeddings) कहा जाता है।
इस गणितीय स्पेस (mathematical space) में, "dog" "puppy" के पास होता है। "Laptop" "notebook" के पास होता है। भले ही शब्द मेल न खाएं, सिस्टम सही परिणाम ढूंढ लेता है क्योंकि उनके अर्थ करीब होते हैं।
- रैंकिंग (Ranking) सिस्टम मिलान वाले परिणाम ढूंढता है, फिर उन्हें रैंक करता है। यह इन संकेतों (signals) का उपयोग करता है:
- प्रासंगिकता (Relevance)
- लोकप्रियता (Popularity)
- रेटिंग्स (Ratings)
- खरीदारी का इतिहास (Purchase history)
- डिलीवरी की गति (Delivery speed)
सबसे अधिक स्कोर वाले परिणाम सबसे ऊपर दिखाई देते हैं।
पर्सनलाइजेशन (Personalization) वही सर्च अलग-अलग लोगों को अलग-अलग परिणाम देता है। यदि आप "shoes" सर्च करते हैं और आमतौर पर फुटबॉल गियर खरीदते हैं, तो आपको क्लीट्स (cleats) दिखाई देंगे। यदि आप "shoes" सर्च करते हैं और मैराथन दौड़ते हैं, तो आपको ट्रेनर्स (trainers) दिखाई देंगे। सिस्टम आपके इतिहास को जानता है।
स्पीड और स्केल (Speed and Scale) लेटेंसी (latency) को कम रखने के लिए, कंपनियाँ इनका उपयोग करती हैं:
- कैशिंग (Caching)
- डिस्ट्रिब्यूटेड डेटाबेस (Distributed databases)
- वेक्टर डेटाबेस (Vector databases)
- लोड बैलेंसिंग (Load balancing)
Pinecone या Milvus जैसे वेक्टर डेटाबेस AI को टेक्स्ट के बजाय गणित के माध्यम से समान आइटम खोजने की अनुमति देते हैं।
सर्च अब केवल एक साधारण डेटाबेस क्वेरी नहीं रह गया है। यह AI, डिस्ट्रिब्यूटेड कंप्यूटिंग और स्मार्ट एल्गोरिदम का मिश्रण है।
Optional learning community: https://t.me/GyaanSetuAi
