ਜਦੋਂ ਤੁਸੀਂ Netflix, Spotify, ਜਾਂ Amazon 'ਤੇ ਸਰਚ ਕਰਦੇ ਹੋ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ?
ਤੁਸੀਂ ਕੁਝ ਸ਼ਬਦ ਟਾਈਪ ਕਰਦੇ ਹੋ। ਲੱਖਾਂ-ਕਰੋੜਾਂ ਗਣਨਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ।
ਹਰ ਰੋਜ਼, ਅਰਬਾਂ ਲੋਕ ਚੀਜ਼ਾਂ ਲੱਭਦੇ ਹਨ।
- Netflix 'ਤੇ Interstellar
- Spotify 'ਤੇ Shape of You
- Amazon 'ਤੇ Wireless Mouse
ਨਤੀਜੇ ਤੁਰੰਤ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ। ਇਹ ਸਧਾਰਨ ਲੱਗਦਾ ਹੈ। ਪਰ ਉਸ ਸਰਚ ਬਾਕਸ ਦੇ ਪਿੱਛੇ ਇੱਕ ਵਿਸ਼ਾਲ ਇੰਜੀਨੀਅਰਿੰਗ ਸਿਸਟਮ ਕੰਮ ਕਰਦਾ ਹੈ।
ਆਧੁਨਿਕ ਸਰਚ ਸਿਰਫ਼ ਸ਼ਬਦਾਂ ਨੂੰ ਮਿਲਾਉਣ ਤੋਂ ਕਿਤੇ ਵੱਧ ਕਰਦਾ ਹੈ। ਇਹ ਅਰਥਾਂ ਨੂੰ ਸਮਝਦਾ ਹੈ, ਇਰਾਦੇ (intent) ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ, ਅਤੇ ਮਿਲੀਸਕਿੰਟਾਂ ਵਿੱਚ ਨਤੀਜਿਆਂ ਨੂੰ ਵਿਅਕਤੀਗਤ ਬਣਾਉਂਦਾ ਹੈ।
ਇੱਥੇ ਇੱਕ ਸਰਚ ਕੁਐਰੀ (search query) ਦਾ ਸਫ਼ਰ ਦਿੱਤਾ ਗਿਆ ਹੈ:
Query Preprocessing ਸਿਸਟਮ ਤੁਹਾਡੇ ਵਾਕ ਨੂੰ ਟੁਕੜਿਆਂ ਵਿੱਚ ਵੰਡ ਦਿੰਦਾ ਹੈ। ਇਹ ਟੈਕਸਟ ਨੂੰ ਸਾਫ਼ ਕਰਦਾ ਹੈ। ਇਹ ਟਾਈਪਿੰਗ ਦੀਆਂ ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ ਅਤੇ ਸਮਾਨਾਰਥੀ ਸ਼ਬਦਾਂ ਦਾ ਵਿਸਤਾਰ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ "sneakers" ਸਰਚ ਕਰਦੇ ਹੋ, ਤਾਂ ਸਿਸਟਮ ਜਾਣਦਾ ਹੈ ਕਿ ਤੁਹਾਡਾ ਮਤਲਬ "shoes" ਹੈ।
The Inverted Index Amazon ਕੋਲ ਲੱਖਾਂ ਉਤਪਾਦ ਹਨ। ਇਹ ਹਰ ਉਤਪਾਦ ਨੂੰ ਇੱਕ-ਇੱਕ ਕਰਕੇ ਨਹੀਂ ਚੈੱਕ ਕਰਦਾ। ਇਸ ਵਿੱਚ ਬਹੁਤ ਸਮਾਂ ਲੱਗੇਗਾ। ਇਸ ਦੀ ਬਜਾਏ, ਇਹ ਇੱਕ inverted index ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਪਾਠ-ਪੁਸਤਕ ਦੇ ਇੰਡੈਕਸ ਵਾਂਗ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਕੀਵਰਡਸ ਨੂੰ ਸਿੱਧਾ ਪ੍ਰੋਡਕਟ IDs ਨਾਲ ਜੋੜਦਾ ਹੈ। ਇਹ ਲੱਖਾਂ ਆਈਟਮਾਂ ਨੂੰ ਕੁਝ ਹਜ਼ਾਰਾਂ ਤੱਕ ਘਟਾ ਦਿੰਦਾ ਹੈ।
Semantic Search ਰਵਾਇਤੀ ਸਰਚ ਸਹੀ ਸ਼ਬਦਾਂ ਦੀ ਭਾਲ ਕਰਦਾ ਹੈ। ਆਧੁਨਿਕ ਸਰਚ ਅਰਥਾਂ ਦੀ ਭਾਲ ਕਰਦਾ ਹੈ। AI ਸ਼ਬਦਾਂ ਨੂੰ ਨੰਬਰਾਂ ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ embeddings ਕਿਹਾ ਜਾਂਦਾ ਹੈ।
ਇਸ ਗਣਿਤਕ ਸਪੇਸ ਵਿੱਚ, "dog" "puppy" ਦੇ ਨੇੜੇ ਹੁੰਦਾ ਹੈ। "Laptop" "notebook" ਦੇ ਨੇੜੇ ਹੁੰਦਾ ਹੈ। ਭਾਵੇਂ ਸ਼ਬਦ ਮੇਲ ਨਾ ਵੀ ਖਾਣ, ਸਿਸਟਮ ਸਹੀ ਨਤੀਜਾ ਲੱਭ ਲੈਂਦਾ ਹੈ ਕਿਉਂਕਿ ਉਹਨਾਂ ਦੇ ਅਰਥ ਨੇੜੇ-ਨੇੜੇ ਹੁੰਦੇ ਹਨ।
- Ranking ਸਿਸਟਮ ਮੇਲ ਖਾਣ ਵਾਲੀਆਂ ਚੀਜ਼ਾਂ ਲੱਭਦਾ ਹੈ, ਫਿਰ ਉਹਨਾਂ ਨੂੰ ਰੈਂਕ ਕਰਦਾ ਹੈ। ਇਹ ਇਹਨਾਂ ਸਿਗਨਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ:
- ਪ੍ਰਸੰਗਿਕਤਾ (Relevance)
- ਲੋਕਪ੍ਰਿਯਤਾ (Popularity)
- ਰੇਟਿੰਗ (Ratings)
- ਖਰੀਦ ਇਤਿਹਾਸ (Purchase history)
- ਡਿਲੀਵਰੀ ਦੀ ਰਫ਼ਤਾਰ (Delivery speed)
ਸਭ ਤੋਂ ਵੱਧ ਸਕੋਰ ਸਭ ਤੋਂ ਉੱਪਰ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ।
Personalization ਉਹੀ ਸਰਚ ਵੱਖ-ਵੱਖ ਲੋਕਾਂ ਨੂੰ ਵੱਖ-ਵੱਖ ਨਤੀਜੇ ਦਿੰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ "shoes" ਸਰਚ ਕਰਦੇ ਹੋ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਫੁੱਟਬਾਲ ਦਾ ਸਾਮਾਨ ਖਰੀਦਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ cleats ਦਿਖਾਈ ਦੇਣਗੇ। ਜੇਕਰ ਤੁਸੀਂ "shoes" ਸਰਚ ਕਰਦੇ ਹੋ ਅਤੇ ਮੈਰਾਥਨ ਦੌੜਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ trainers ਦਿਖਾਈ ਦੇਣਗੇ। ਸਿਸਟਮ ਤੁਹਾਡੇ ਇਤਿਹਾਸ ਨੂੰ ਜਾਣਦਾ ਹੈ।
Speed and Scale ਲੇਟੈਂਸੀ (latency) ਨੂੰ ਘੱਟ ਰੱਖਣ ਲਈ, ਕੰਪਨੀਆਂ ਇਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ:
- Caching
- Distributed databases
- Vector databases
- Load balancing
Pinecone ਜਾਂ Milvus ਵਰਗੇ Vector databases AI ਨੂੰ ਟੈਕਸਟ ਦੀ ਬਜਾਏ ਗਣਿਤ ਰਾਹੀਂ ਸਮਾਨ ਆਈਟਮਾਂ ਲੱਭਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ।
ਸਰਚ ਹੁਣ ਸਿਰਫ਼ ਇੱਕ ਸਧਾਰਨ ਡੇਟਾਬੇਸ ਕੁਐਰੀ ਨਹੀਂ ਰਹੀ। ਇਹ AI, distributed computing, ਅਤੇ ਸਮਾਰਟ ਐਲਗੋਰਿਦਮ ਦਾ ਸੁਮੇਲ ਹੈ।
Optional learning community: https://t.me/GyaanSetuAi
