మీరు Netflix, Spotify, లేదా Amazonలో సెర్చ్ చేసినప్పుడు ఏమి జరుగుతుంది?
మీరు కొన్ని పదాలను టైప్ చేస్తారు. లక్షలాది గణనలు (computations) జరుగుతాయి.
ప్రతిరోజూ, బిలియన్ల కొద్దీ ప్రజలు వివిధ వస్తువుల కోసం వెతుకుతుంటారు.
- Netflixలో Interstellar
- Spotifyలో Shape of You
- Amazonలో Wireless Mouse
ఫలితాలు తక్షణమే కనిపిస్తాయి. ఇది చాలా సరళంగా అనిపిస్తుంది. కానీ ఆ సెర్చ్ బాక్స్ వెనుక ఒక భారీ ఇంజనీరింగ్ వ్యవస్థ పనిచేస్తుంది.
ఆధునిక సెర్చ్ కేవలం పదాలను సరిపోల్చడమే కాకుండా, వాటి అర్థాన్ని అర్థం చేసుకుంటుంది, ఉద్దేశాన్ని (intent) అంచనా వేస్తుంది మరియు మిల్లీ సెకన్లలో ఫలితాలను వ్యక్తిగతీకరిస్తుంది (personalizes).
ఒక సెర్చ్ క్వెరీ (search query) ప్రయాణం ఇక్కడ ఉంది:
క్వెరీ ప్రీప్రాసెసింగ్ (Query Preprocessing) సిస్టమ్ మీ వాక్యాన్ని ముక్కలుగా విడగొడుతుంది. ఇది టెక్స్ట్ను శుద్ధి చేస్తుంది. ఇది టైపింగ్ తప్పులను (typos) సరిదిద్దుతుంది మరియు పర్యాయపదాలను (synonyms) విస్తరిస్తుంది. మీరు "sneakers" అని వెతికితే, మీరు "shoes" అని అర్థం చేసుకునేలా సిస్టమ్ పనిచేస్తుంది.
ఇన్వర్టెడ్ ఇండెక్స్ (The Inverted Index) Amazonలో లక్షలాది ఉత్పత్తులు ఉన్నాయి. అది ప్రతి ఉత్పత్తిని ఒక్కొక్కటిగా తనిఖీ చేయదు. అలా చేస్తే చాలా సమయం పడుతుంది. దానికి బదులుగా, అది ఇన్వర్టెడ్ ఇండెక్స్ను ఉపయోగిస్తుంది. ఇది ఒక పాఠ్యపుస్తకంలోని ఇండెక్స్ లాగా పనిచేస్తుంది. ఇది కీవర్డ్లను నేరుగా ప్రొడక్ట్ ఐడిలకు (product IDs) అనుసంధానిస్తుంది. దీనివల్ల లక్షలాది వస్తువుల నుండి కొన్ని వేల వస్తువుల వరకు మాత్రమే వెతకాల్సి ఉంటుంది.
సెమాంటిక్ సెర్చ్ (Semantic Search) సాంప్రదాయ సెర్చ్ ఖచ్చితమైన పదాల కోసం వెతుకుతుంది. ఆధునిక సెర్చ్ అర్థం కోసం వెతుకుతుంది. AI పదాలను 'ఎంబెడ్డింగ్స్' (embeddings) అని పిలిచే సంఖ్యలుగా మారుస్తుంది.
ఈ గణిత ప్రదేశంలో (mathematical space), "dog" అనేది "puppy"కి దగ్గరగా ఉంటుంది. "Laptop" అనేది "notebook"కి దగ్గరగా ఉంటుంది. పదాలు సరిపోలకపోయినా, వాటి అర్థాలు దగ్గరగా ఉండటం వల్ల సిస్టమ్ సరైన ఫలితాన్ని కనుగొంటుంది.
- ర్యాంకింగ్ (Ranking) సిస్టమ్ ముందుగా సరిపోలే ఫలితాలను కనుగొని, ఆపై వాటిని ర్యాంక్ చేస్తుంది. ఇది ఈ క్రింది సంకేతాలను (signals) ఉపయోగిస్తుంది:
- సంబంధితత (Relevance)
- పాపులారిటీ (Popularity)
- రేటింగ్స్ (Ratings)
- కొనుగోలు చరిత్ర (Purchase history)
- డెలివరీ వేగం (Delivery speed)
అత్యధిక స్కోర్లు ఉన్నవి పైన కనిపిస్తాయి.
వ్యక్తిగతీకరణ (Personalization) ఒకే సెర్చ్ వేర్వేరు వ్యక్తులకు వేర్వేరు ఫలితాలను ఇస్తుంది. మీరు "shoes" అని వెతికి, సాధారణంగా ఫుట్బాల్ గేర్ కొనుగోలు చేస్తుంటే, మీకు క్లీట్స్ (cleats) కనిపిస్తాయి. మీరు "shoes" అని వెతికి, మారథాన్లు పరుగెడుతుంటే, మీకు ట్రైనర్స్ (trainers) కనిపిస్తాయి. సిస్టమ్కు మీ చరిత్ర తెలుసు.
వేగం మరియు స్కేల్ (Speed and Scale) లాటెన్సీ (latency) తక్కువగా ఉండటానికి, కంపెనీలు వీటిని ఉపయోగిస్తాయి:
- Caching
- Distributed databases
- Vector databases
- Load balancing
Pinecone లేదా Milvus వంటి వెక్టర్ డేటాబేస్లు (Vector databases), టెక్స్ట్ కంటే గణితం ద్వారా సారూప్య వస్తువులను కనుగొనడానికి AIకి సహాయపడతాయి.
సెర్చ్ అనేది ఇప్పుడు కేవలం ఒక సాధారణ డేటాబేస్ క్వెరీ మాత్రమే కాదు. ఇది AI, డిస్ట్రిబ్యూటెడ్ కంప్యూటింగ్ మరియు స్మార్ట్ అల్గారిథమ్ల కలయిక.
Optional learning community: https://t.me/GyaanSetuAi
