ਜਦੋਂ ਤੁਸੀਂ Netflix, Spotify, ਜਾਂ Amazon 'ਤੇ ਸਰਚ ਕਰਦੇ ਹੋ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial-22 h2min read

ਜਦੋਂ ਤੁਸੀਂ Netflix, Spotify, ਜਾਂ Amazon 'ਤੇ ਸਰਚ ਕਰਦੇ ਹੋ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ?

ਜਦੋਂ ਤੁਸੀਂ Netflix, Spotify, ਜਾਂ Amazon 'ਤੇ ਸਰਚ ਕਰਦੇ ਹੋ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ?

ਤੁਸੀਂ ਕੁਝ ਸ਼ਬਦ ਟਾਈਪ ਕਰਦੇ ਹੋ। ਲੱਖਾਂ-ਕਰੋੜਾਂ ਗਣਨਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ।

ਹਰ ਰੋਜ਼, ਅਰਬਾਂ ਲੋਕ ਚੀਜ਼ਾਂ ਲੱਭਦੇ ਹਨ।

Netflix 'ਤੇ Interstellar
Spotify 'ਤੇ Shape of You
Amazon 'ਤੇ Wireless Mouse

ਨਤੀਜੇ ਤੁਰੰਤ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ। ਇਹ ਸਧਾਰਨ ਲੱਗਦਾ ਹੈ। ਪਰ ਉਸ ਸਰਚ ਬਾਕਸ ਦੇ ਪਿੱਛੇ ਇੱਕ ਵਿਸ਼ਾਲ ਇੰਜੀਨੀਅਰਿੰਗ ਸਿਸਟਮ ਕੰਮ ਕਰਦਾ ਹੈ।

ਆਧੁਨਿਕ ਸਰਚ ਸਿਰਫ਼ ਸ਼ਬਦਾਂ ਨੂੰ ਮਿਲਾਉਣ ਤੋਂ ਕਿਤੇ ਵੱਧ ਕਰਦਾ ਹੈ। ਇਹ ਅਰਥਾਂ ਨੂੰ ਸਮਝਦਾ ਹੈ, ਇਰਾਦੇ (intent) ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ, ਅਤੇ ਮਿਲੀਸਕਿੰਟਾਂ ਵਿੱਚ ਨਤੀਜਿਆਂ ਨੂੰ ਵਿਅਕਤੀਗਤ ਬਣਾਉਂਦਾ ਹੈ।

ਇੱਥੇ ਇੱਕ ਸਰਚ ਕੁਐਰੀ (search query) ਦਾ ਸਫ਼ਰ ਦਿੱਤਾ ਗਿਆ ਹੈ:

Query Preprocessing ਸਿਸਟਮ ਤੁਹਾਡੇ ਵਾਕ ਨੂੰ ਟੁਕੜਿਆਂ ਵਿੱਚ ਵੰਡ ਦਿੰਦਾ ਹੈ। ਇਹ ਟੈਕਸਟ ਨੂੰ ਸਾਫ਼ ਕਰਦਾ ਹੈ। ਇਹ ਟਾਈਪਿੰਗ ਦੀਆਂ ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ ਅਤੇ ਸਮਾਨਾਰਥੀ ਸ਼ਬਦਾਂ ਦਾ ਵਿਸਤਾਰ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ "sneakers" ਸਰਚ ਕਰਦੇ ਹੋ, ਤਾਂ ਸਿਸਟਮ ਜਾਣਦਾ ਹੈ ਕਿ ਤੁਹਾਡਾ ਮਤਲਬ "shoes" ਹੈ।
The Inverted Index Amazon ਕੋਲ ਲੱਖਾਂ ਉਤਪਾਦ ਹਨ। ਇਹ ਹਰ ਉਤਪਾਦ ਨੂੰ ਇੱਕ-ਇੱਕ ਕਰਕੇ ਨਹੀਂ ਚੈੱਕ ਕਰਦਾ। ਇਸ ਵਿੱਚ ਬਹੁਤ ਸਮਾਂ ਲੱਗੇਗਾ। ਇਸ ਦੀ ਬਜਾਏ, ਇਹ ਇੱਕ inverted index ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਪਾਠ-ਪੁਸਤਕ ਦੇ ਇੰਡੈਕਸ ਵਾਂਗ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਕੀਵਰਡਸ ਨੂੰ ਸਿੱਧਾ ਪ੍ਰੋਡਕਟ IDs ਨਾਲ ਜੋੜਦਾ ਹੈ। ਇਹ ਲੱਖਾਂ ਆਈਟਮਾਂ ਨੂੰ ਕੁਝ ਹਜ਼ਾਰਾਂ ਤੱਕ ਘਟਾ ਦਿੰਦਾ ਹੈ।
Semantic Search ਰਵਾਇਤੀ ਸਰਚ ਸਹੀ ਸ਼ਬਦਾਂ ਦੀ ਭਾਲ ਕਰਦਾ ਹੈ। ਆਧੁਨਿਕ ਸਰਚ ਅਰਥਾਂ ਦੀ ਭਾਲ ਕਰਦਾ ਹੈ। AI ਸ਼ਬਦਾਂ ਨੂੰ ਨੰਬਰਾਂ ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ embeddings ਕਿਹਾ ਜਾਂਦਾ ਹੈ।

ਇਸ ਗਣਿਤਕ ਸਪੇਸ ਵਿੱਚ, "dog" "puppy" ਦੇ ਨੇੜੇ ਹੁੰਦਾ ਹੈ। "Laptop" "notebook" ਦੇ ਨੇੜੇ ਹੁੰਦਾ ਹੈ। ਭਾਵੇਂ ਸ਼ਬਦ ਮੇਲ ਨਾ ਵੀ ਖਾਣ, ਸਿਸਟਮ ਸਹੀ ਨਤੀਜਾ ਲੱਭ ਲੈਂਦਾ ਹੈ ਕਿਉਂਕਿ ਉਹਨਾਂ ਦੇ ਅਰਥ ਨੇੜੇ-ਨੇੜੇ ਹੁੰਦੇ ਹਨ।

Ranking ਸਿਸਟਮ ਮੇਲ ਖਾਣ ਵਾਲੀਆਂ ਚੀਜ਼ਾਂ ਲੱਭਦਾ ਹੈ, ਫਿਰ ਉਹਨਾਂ ਨੂੰ ਰੈਂਕ ਕਰਦਾ ਹੈ। ਇਹ ਇਹਨਾਂ ਸਿਗਨਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ:

ਪ੍ਰਸੰਗਿਕਤਾ (Relevance)
ਲੋਕਪ੍ਰਿਯਤਾ (Popularity)
ਰੇਟਿੰਗ (Ratings)
ਖਰੀਦ ਇਤਿਹਾਸ (Purchase history)
ਡਿਲੀਵਰੀ ਦੀ ਰਫ਼ਤਾਰ (Delivery speed)

ਸਭ ਤੋਂ ਵੱਧ ਸਕੋਰ ਸਭ ਤੋਂ ਉੱਪਰ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ।

Personalization ਉਹੀ ਸਰਚ ਵੱਖ-ਵੱਖ ਲੋਕਾਂ ਨੂੰ ਵੱਖ-ਵੱਖ ਨਤੀਜੇ ਦਿੰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ "shoes" ਸਰਚ ਕਰਦੇ ਹੋ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਫੁੱਟਬਾਲ ਦਾ ਸਾਮਾਨ ਖਰੀਦਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ cleats ਦਿਖਾਈ ਦੇਣਗੇ। ਜੇਕਰ ਤੁਸੀਂ "shoes" ਸਰਚ ਕਰਦੇ ਹੋ ਅਤੇ ਮੈਰਾਥਨ ਦੌੜਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ trainers ਦਿਖਾਈ ਦੇਣਗੇ। ਸਿਸਟਮ ਤੁਹਾਡੇ ਇਤਿਹਾਸ ਨੂੰ ਜਾਣਦਾ ਹੈ।
Speed and Scale ਲੇਟੈਂਸੀ (latency) ਨੂੰ ਘੱਟ ਰੱਖਣ ਲਈ, ਕੰਪਨੀਆਂ ਇਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ:

Caching
Distributed databases
Vector databases
Load balancing

Pinecone ਜਾਂ Milvus ਵਰਗੇ Vector databases AI ਨੂੰ ਟੈਕਸਟ ਦੀ ਬਜਾਏ ਗਣਿਤ ਰਾਹੀਂ ਸਮਾਨ ਆਈਟਮਾਂ ਲੱਭਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ।

ਸਰਚ ਹੁਣ ਸਿਰਫ਼ ਇੱਕ ਸਧਾਰਨ ਡੇਟਾਬੇਸ ਕੁਐਰੀ ਨਹੀਂ ਰਹੀ। ਇਹ AI, distributed computing, ਅਤੇ ਸਮਾਰਟ ਐਲਗੋਰਿਦਮ ਦਾ ਸੁਮੇਲ ਹੈ।

Source: https://dev.to/vineet_chauhan_a828338181/what-really-happens-when-you-search-on-netflix-spotify-or-amazon-behind-the-scenes-of-modern-p9b

Optional learning community: https://t.me/GyaanSetuAi