ਜਦੋਂ ਤੁਸੀਂ Netflix, Spotify, ਜਾਂ Amazon 'ਤੇ ਸਰਚ ਕਰਦੇ ਹੋ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ?

ਤੁਸੀਂ ਕੁਝ ਸ਼ਬਦ ਟਾਈਪ ਕਰਦੇ ਹੋ। ਲੱਖਾਂ-ਕਰੋੜਾਂ ਗਣਨਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ।

ਹਰ ਰੋਜ਼, ਅਰਬਾਂ ਲੋਕ ਚੀਜ਼ਾਂ ਲੱਭਦੇ ਹਨ।

  • Netflix 'ਤੇ Interstellar
  • Spotify 'ਤੇ Shape of You
  • Amazon 'ਤੇ Wireless Mouse

ਨਤੀਜੇ ਤੁਰੰਤ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ। ਇਹ ਸਧਾਰਨ ਲੱਗਦਾ ਹੈ। ਪਰ ਉਸ ਸਰਚ ਬਾਕਸ ਦੇ ਪਿੱਛੇ ਇੱਕ ਵਿਸ਼ਾਲ ਇੰਜੀਨੀਅਰਿੰਗ ਸਿਸਟਮ ਕੰਮ ਕਰਦਾ ਹੈ।

ਆਧੁਨਿਕ ਸਰਚ ਸਿਰਫ਼ ਸ਼ਬਦਾਂ ਨੂੰ ਮਿਲਾਉਣ ਤੋਂ ਕਿਤੇ ਵੱਧ ਕਰਦਾ ਹੈ। ਇਹ ਅਰਥਾਂ ਨੂੰ ਸਮਝਦਾ ਹੈ, ਇਰਾਦੇ (intent) ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ, ਅਤੇ ਮਿਲੀਸਕਿੰਟਾਂ ਵਿੱਚ ਨਤੀਜਿਆਂ ਨੂੰ ਵਿਅਕਤੀਗਤ ਬਣਾਉਂਦਾ ਹੈ।

ਇੱਥੇ ਇੱਕ ਸਰਚ ਕੁਐਰੀ (search query) ਦਾ ਸਫ਼ਰ ਦਿੱਤਾ ਗਿਆ ਹੈ:

  1. Query Preprocessing ਸਿਸਟਮ ਤੁਹਾਡੇ ਵਾਕ ਨੂੰ ਟੁਕੜਿਆਂ ਵਿੱਚ ਵੰਡ ਦਿੰਦਾ ਹੈ। ਇਹ ਟੈਕਸਟ ਨੂੰ ਸਾਫ਼ ਕਰਦਾ ਹੈ। ਇਹ ਟਾਈਪਿੰਗ ਦੀਆਂ ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ ਅਤੇ ਸਮਾਨਾਰਥੀ ਸ਼ਬਦਾਂ ਦਾ ਵਿਸਤਾਰ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ "sneakers" ਸਰਚ ਕਰਦੇ ਹੋ, ਤਾਂ ਸਿਸਟਮ ਜਾਣਦਾ ਹੈ ਕਿ ਤੁਹਾਡਾ ਮਤਲਬ "shoes" ਹੈ।

  2. The Inverted Index Amazon ਕੋਲ ਲੱਖਾਂ ਉਤਪਾਦ ਹਨ। ਇਹ ਹਰ ਉਤਪਾਦ ਨੂੰ ਇੱਕ-ਇੱਕ ਕਰਕੇ ਨਹੀਂ ਚੈੱਕ ਕਰਦਾ। ਇਸ ਵਿੱਚ ਬਹੁਤ ਸਮਾਂ ਲੱਗੇਗਾ। ਇਸ ਦੀ ਬਜਾਏ, ਇਹ ਇੱਕ inverted index ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਪਾਠ-ਪੁਸਤਕ ਦੇ ਇੰਡੈਕਸ ਵਾਂਗ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਕੀਵਰਡਸ ਨੂੰ ਸਿੱਧਾ ਪ੍ਰੋਡਕਟ IDs ਨਾਲ ਜੋੜਦਾ ਹੈ। ਇਹ ਲੱਖਾਂ ਆਈਟਮਾਂ ਨੂੰ ਕੁਝ ਹਜ਼ਾਰਾਂ ਤੱਕ ਘਟਾ ਦਿੰਦਾ ਹੈ।

  3. Semantic Search ਰਵਾਇਤੀ ਸਰਚ ਸਹੀ ਸ਼ਬਦਾਂ ਦੀ ਭਾਲ ਕਰਦਾ ਹੈ। ਆਧੁਨਿਕ ਸਰਚ ਅਰਥਾਂ ਦੀ ਭਾਲ ਕਰਦਾ ਹੈ। AI ਸ਼ਬਦਾਂ ਨੂੰ ਨੰਬਰਾਂ ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ embeddings ਕਿਹਾ ਜਾਂਦਾ ਹੈ।

ਇਸ ਗਣਿਤਕ ਸਪੇਸ ਵਿੱਚ, "dog" "puppy" ਦੇ ਨੇੜੇ ਹੁੰਦਾ ਹੈ। "Laptop" "notebook" ਦੇ ਨੇੜੇ ਹੁੰਦਾ ਹੈ। ਭਾਵੇਂ ਸ਼ਬਦ ਮੇਲ ਨਾ ਵੀ ਖਾਣ, ਸਿਸਟਮ ਸਹੀ ਨਤੀਜਾ ਲੱਭ ਲੈਂਦਾ ਹੈ ਕਿਉਂਕਿ ਉਹਨਾਂ ਦੇ ਅਰਥ ਨੇੜੇ-ਨੇੜੇ ਹੁੰਦੇ ਹਨ।

  1. Ranking ਸਿਸਟਮ ਮੇਲ ਖਾਣ ਵਾਲੀਆਂ ਚੀਜ਼ਾਂ ਲੱਭਦਾ ਹੈ, ਫਿਰ ਉਹਨਾਂ ਨੂੰ ਰੈਂਕ ਕਰਦਾ ਹੈ। ਇਹ ਇਹਨਾਂ ਸਿਗਨਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ:
  • ਪ੍ਰਸੰਗਿਕਤਾ (Relevance)
  • ਲੋਕਪ੍ਰਿਯਤਾ (Popularity)
  • ਰੇਟਿੰਗ (Ratings)
  • ਖਰੀਦ ਇਤਿਹਾਸ (Purchase history)
  • ਡਿਲੀਵਰੀ ਦੀ ਰਫ਼ਤਾਰ (Delivery speed)

ਸਭ ਤੋਂ ਵੱਧ ਸਕੋਰ ਸਭ ਤੋਂ ਉੱਪਰ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ।

  1. Personalization ਉਹੀ ਸਰਚ ਵੱਖ-ਵੱਖ ਲੋਕਾਂ ਨੂੰ ਵੱਖ-ਵੱਖ ਨਤੀਜੇ ਦਿੰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ "shoes" ਸਰਚ ਕਰਦੇ ਹੋ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਫੁੱਟਬਾਲ ਦਾ ਸਾਮਾਨ ਖਰੀਦਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ cleats ਦਿਖਾਈ ਦੇਣਗੇ। ਜੇਕਰ ਤੁਸੀਂ "shoes" ਸਰਚ ਕਰਦੇ ਹੋ ਅਤੇ ਮੈਰਾਥਨ ਦੌੜਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ trainers ਦਿਖਾਈ ਦੇਣਗੇ। ਸਿਸਟਮ ਤੁਹਾਡੇ ਇਤਿਹਾਸ ਨੂੰ ਜਾਣਦਾ ਹੈ।

  2. Speed and Scale ਲੇਟੈਂਸੀ (latency) ਨੂੰ ਘੱਟ ਰੱਖਣ ਲਈ, ਕੰਪਨੀਆਂ ਇਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ:

  • Caching
  • Distributed databases
  • Vector databases
  • Load balancing

Pinecone ਜਾਂ Milvus ਵਰਗੇ Vector databases AI ਨੂੰ ਟੈਕਸਟ ਦੀ ਬਜਾਏ ਗਣਿਤ ਰਾਹੀਂ ਸਮਾਨ ਆਈਟਮਾਂ ਲੱਭਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ।

ਸਰਚ ਹੁਣ ਸਿਰਫ਼ ਇੱਕ ਸਧਾਰਨ ਡੇਟਾਬੇਸ ਕੁਐਰੀ ਨਹੀਂ ਰਹੀ। ਇਹ AI, distributed computing, ਅਤੇ ਸਮਾਰਟ ਐਲਗੋਰਿਦਮ ਦਾ ਸੁਮੇਲ ਹੈ।

Source: https://dev.to/vineet_chauhan_a828338181/what-really-happens-when-you-search-on-netflix-spotify-or-amazon-behind-the-scenes-of-modern-p9b

Optional learning community: https://t.me/GyaanSetuAi