Netflix, Spotify அல்லது Amazon-இல் நீங்கள் தேடும்போது என்ன நடக்கிறது?
நீங்கள் சில வார்த்தைகளைத் தட்டச்சு செய்கிறீர்கள். மில்லியன் கணக்கான கணக்கீடுகள் நடக்கின்றன.
ஒவ்வொரு நாளும், பில்லியன் கணக்கான மக்கள் விஷயங்களைத் தேடுகிறார்கள்.
- Netflix-இல் Interstellar
- Spotify-இல் Shape of You
- Amazon-இல் Wireless Mouse
முடிவுகள் உடனடியாகத் தோன்றுகின்றன. இது எளிமையாகத் தோன்றலாம். ஆனால் அந்தத் தேடல் பெட்டிக்கு பின்னால் ஒரு பிரம்மாண்டமான பொறியியல் அமைப்பு இயங்குகிறது.
நவீனத் தேடல் என்பது வெறும் வார்த்தைகளைச் சரியாகப் பொருத்துவது மட்டுமல்ல. அது பொருளைப் புரிந்துகொள்கிறது, நோக்கத்தைக் கணிக்கிறது மற்றும் மில்லி விநாடிகளில் முடிவுகளைத் தனிப்பயனாக்குகிறது.
ஒரு தேடல் வினாவின் (search query) பயணம் இதோ:
வினாவைப் முன்செயலாக்கம் செய்தல் (Query Preprocessing) இந்த அமைப்பு உங்கள் வாக்கியத்தை துண்டுகளாகப் பிரிக்கிறது. உரையைச் சுத்தப்படுத்துகிறது. எழுத்துப் பிழைகளைச் சரிசெய்கிறது மற்றும் ஒத்த சொற்களை விரிவுபடுத்துகிறது. நீங்கள் "sneakers" என்று தேடினால், நீங்கள் "shoes" என்பதையே குறிக்கிறீர்கள் என்பதை இந்த அமைப்பு புரிந்துகொள்ளும்.
இன்வெர்ட்டட் இண்டெக்ஸ் (The Inverted Index) Amazon-இல் மில்லியன் கணக்கான தயாரிப்புகள் உள்ளன. அது ஒவ்வொரு தயாரிப்பையும் ஒவ்வொன்றாகச் சரிபார்ப்பதில்லை. அதற்கு மிக நீண்ட நேரம் எடுக்கும். அதற்குப் பதிலாக, அது ஒரு இன்வெர்ட்டட் இண்டெக்ஸ் (inverted index) முறையைப் பயன்படுத்துகிறது. இது ஒரு பாடப்புத்தகத்தின் பொருளடக்கம் போலச் செயல்படுகிறது. இது முக்கியச் சொற்களை (keywords) நேரடியாகத் தயாரிப்பு ஐடிகளுடன் (product IDs) இணைக்கிறது. இது மில்லியன் கணக்கான பொருட்களைச் சில ஆயிரங்களாகக் குறைக்கிறது.
பொருண்மைத் தேடல் (Semantic Search) பாரம்பரியத் தேடல் துல்லியமான வார்த்தைகளைத் தேடுகிறது. நவீனத் தேடல் பொருளைத் தேடுகிறது. AI வார்த்தைகளை 'embeddings' எனப்படும் எண்களாக மாற்றுகிறது.
இந்த கணித வெளியில், "dog" என்பது "puppy"-க்கு அருகில் இருக்கும். "Laptop" என்பது "notebook"-க்கு அருகில் இருக்கும். வார்த்தைகள் பொருந்தாவிட்டாலும், அவற்றின் பொருள்கள் நெருக்கமாக இருப்பதால், சரியான முடிவை இந்த அமைப்பு கண்டறியும்.
- தரவரிசைப்படுத்துதல் (Ranking) அமைப்பு பொருத்தமானவற்றைத் தேடிப் பிடித்து, பின்னர் அவற்றை வரிசைப்படுத்துகிறது. இது பின்வரும் சிக்னல்களைப் பயன்படுத்துகிறது:
- தொடர்பு (Relevance)
- பிரபலம் (Popularity)
- மதிப்பீடுகள் (Ratings)
- கொள்முதல் வரலாறு (Purchase history)
- டெலிவரி வேகம் (Delivery speed)
அதிக மதிப்பெண்கள் பெற்றவை முதலிடத்தில் தோன்றும்.
தனிப்பயனாக்கம் (Personalization) ஒரே தேடல் வெவ்வேறு நபர்களுக்கு வெவ்வேறு முடிவுகளைத் தரும். நீங்கள் "shoes" என்று தேடி, வழக்கமாக கால்பந்து உபகரணங்களை வாங்கினால், உங்களுக்கு cleats காட்சியளிக்கும். நீங்கள் "shoes" என்று தேடி, மாரத்தான் ஓட்டப்பந்தயத்தில் ஈடுபட்டால், உங்களுக்கு trainers காட்சியளிக்கும். உங்கள் வரலாற்றை இந்த அமைப்பு அறிந்திருக்கும்.
வேகம் மற்றும் அளவு (Speed and Scale) தாமதத்தைக் (latency) குறைக்க, நிறுவனங்கள் இவற்றைப் பயன்படுத்துகின்றன:
- Caching
- Distributed databases
- Vector databases
- Load balancing
Pinecone அல்லது Milvus போன்ற வெக்டர் தரவுத்தளங்கள், உரையை விட கணிதத்தின் மூலம் ஒத்த பொருட்களைக் கண்டறிய AI-க்கு உதவுகின்றன.
தேடல் என்பது இனி ஒரு சாதாரண தரவுத்தள வினவல் (database query) மட்டுமல்ல. இது AI, பரவலாக்கப்பட்ட கணினி முறை (distributed computing) மற்றும் புத்திசாலித்தனமான அல்காரிதம்களின் (algorithms) கலவையாகும்.
Optional learning community: https://t.me/GyaanSetuAi
