જ્યારે તમે Netflix, Spotify અથવા Amazon પર સર્ચ કરો છો ત્યારે શું થાય છે?

તમે થોડા શબ્દો ટાઈપ કરો છો. લાખો ગણતરીઓ થાય છે.

દરરોજ, અબજો લોકો વસ્તુઓ શોધે છે.

  • Netflix પર Interstellar
  • Spotify પર Shape of You
  • Amazon પર Wireless Mouse

પરિણામો તરત જ દેખાય છે. તે સરળ લાગે છે. પરંતુ તે સર્ચ બોક્સ પાછળ એક વિશાળ એન્જિનિયરિંગ સિસ્ટમ કામ કરે છે.

આધુનિક સર્ચ માત્ર શબ્દો મેળવવા કરતાં વધુ કામ કરે છે. તે અર્થ સમજે છે, ઈરાદો (intent) અનુમાનિત કરે છે અને મિલિસેકન્ડોમાં પરિણામોને વ્યક્તિગત (personalize) બનાવે છે.

સર્ચ ક્વેરીની સફર અહીં છે:

  1. ક્વેરી પ્રી-પ્રોસેસિંગ (Query Preprocessing) સિસ્ટમ તમારા વાક્યને ટુકડાઓમાં વિભાજિત કરે છે. તે ટેક્સ્ટને સાફ કરે છે. તે ટાઈપો (ભૂલો) સુધારે છે અને સમાનાર્થી શબ્દોનો વિસ્તાર કરે છે. જો તમે "sneakers" શોધો છો, તો સિસ્ટમ જાણે છે કે તમારો અર્થ "shoes" છે.

  2. ઇન્વર્ટેડ ઇન્ડેક્સ (The Inverted Index) Amazon પાસે લાખો ઉત્પાદનો છે. તે દરેક ઉત્પાદનને એક પછી એક તપાસતું નથી. તેમાં ઘણો સમય લાગશે. તેના બદલે, તે ઇન્વર્ટેડ ઇન્ડેક્સનો ઉપયોગ કરે છે. આ પાઠ્યપુસ્તકના ઇન્ડેક્સ જેવું કામ કરે છે. તે કીવર્ડ્સને સીધા જ પ્રોડક્ટ ID સાથે જોડે છે. આનાથી લાખો વસ્તુઓમાંથી માત્ર થોડી હજાર વસ્તુઓ સુધી મર્યાદિત કરી શકાય છે.

  3. સેમેન્ટિક સર્ચ (Semantic Search) પરંપરાગત સર્ચ ચોક્કસ શબ્દો શોધે છે. આધુનિક સર્ચ અર્થ શોધે છે. AI શબ્દોને નંબરોમાં રૂપાંતરિત કરે છે જેને embeddings કહેવામાં આવે છે.

આ ગાણિતિક અવકાશમાં, "dog" એ "puppy" ની નજીક હોય છે. "Laptop" એ "notebook" ની નજીક હોય છે. ભલે શબ્દો મળતા ન હોય, સિસ્ટમ સાચું પરિણામ શોધી લે છે કારણ કે તેના અર્થ નજીક હોય છે.

  1. રેન્કિંગ (Ranking) સિસ્ટમ મેચ શોધે છે, પછી તેને રેન્ક આપે છે. તે નીચે મુજબના સિગ્નલ્સનો ઉપયોગ કરે છે:
  • પ્રસ્તુતતા (Relevance)
  • લોકપ્રિયતા (Popularity)
  • રેટિંગ્સ (Ratings)
  • ખરીદીનો ઇતિહાસ (Purchase history)
  • ડિલિવરીની ઝડપ (Delivery speed)

સૌથી વધુ સ્કોર ટોચ પર દેખાય છે.

  1. પર્સનલાઇઝેશન (Personalization) સમાન સર્ચ અલગ-અલગ લોકોને અલગ-અલગ પરિણામો આપે છે. જો તમે "shoes" શોધો છો અને સામાન્ય રીતે ફૂટબોલ ગિયર ખરીદો છો, તો તમને cleats દેખાશે. જો તમે "shoes" શોધો છો અને મેરેથોન દોડો છો, તો તમને trainers દેખાશે. સિસ્ટમ તમારો ઇતિહાસ જાણે છે.

  2. સ્પીડ અને સ્કેલ (Speed and Scale) લેટન્સી (latency) ઓછી રાખવા માટે, કંપનીઓ આનો ઉપયોગ કરે છે:

  • Caching
  • Distributed databases
  • Vector databases
  • Load balancing

Pinecone અથવા Milvus જેવા Vector databases AI ને ટેક્સ્ટને બદલે ગણિત દ્વારા સમાન વસ્તુઓ શોધવાની મંજૂરી આપે છે.

સર્ચ હવે માત્ર એક સાદી ડેટાબેઝ ક્વેરી નથી. તે AI, ડિસ્ટ્રિબ્યુટેડ કમ્પ્યુટિંગ અને સ્માર્ટ અલ્ગોરિધમ્સનું મિશ્રણ છે.

સ્ત્રોત: https://dev.to/vineet_chauhan_a828338181/what-really-happens-when-you-search-on-netflix-spotify-or-amazon-behind-the-scenes-of-modern-p9b

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi