Nini Hutokea Unapotafuta Kwenye Netflix, Spotify, au Amazon?
Unachapa maneno machache. Mamilioni ya hesabu hufanyika.
Kila siku, mabilioni ya watu hutafuta vitu.
- Interstellar kwenye Netflix
- Shape of You kwenye Spotify
- Wireless Mouse kwenye Amazon
Matokeo yanatokea papo hapo. Inaonekana ni rahisi. Lakini mfumo mkubwa wa kihandisi unafanya kazi nyuma ya kisanduku hicho cha utafutaji.
Utafutaji wa kisasa unafanya zaidi ya kulinganisha maneno. Unaelewa maana, unatabiri nia, na unatoa matokeo ya kibinafsi ndani ya milisekunde chache.
Hii hapa ni safari ya swali la utafutaji:
Usindikaji wa Awali wa Swali (Query Preprocessing) Mfumo unavunja sentensi yako katika vipande. Unasafisha maandishi. Unarekebisha makosa ya kimaandishi na kupanua visawe. Ukisafuta "sneakers," mfumo unajua unamaanisha "shoes."
Inverted Index Amazon ina bidhaa mamilioni. Haiangali kila bidhaa moja baada ya nyingine. Hilo lingechukua muda mrefu sana. Badala yake, inatumia inverted index. Hii hufanya kazi kama kielelezo cha kitabu (index). Inahusisha maneno muhimu moja kwa moja na ID za bidhaa. Hii inapunguza mamilioni ya vitu hadi elfu chache.
Utafutaji wa Kimantiki (Semantic Search) Utafutaji wa kiasili hutafuta maneno sahihi. Utafutaji wa kisasa hutafuta maana. AI inabadilisha maneno kuwa namba zinazoitwa embeddings.
Katika nafasi hii ya kihisabati, "dog" iko karibu na "puppy." "Laptop" iko karibu na "notebook." Hata kama maneno hayalingani, mfumo unapata matokeo sahihi kwa sababu maana zake ziko karibu.
- Upangaji (Ranking) Mfumo unatafuta vitu vinavyolingana, kisha unavipanga. Unatumia ishara kama:
- Uhusiano (Relevance)
- Umaarufu (Popularity)
- Daraja (Ratings)
- Historia ya ununuzi (Purchase history)
- Kasi ya uwasilishaji (Delivery speed)
Alama za juu zaidi huonekana juu kabisa.
Uboreshaji wa Kibinafsi (Personalization) Utafutaji uleule unatoa matokeo tofauti kwa watu tofauti. Ukisafuta "shoes" na kwa kawaida unanunua vifaa vya mpira, utaona viatu vya mpira (cleats). Ukisafuta "shoes" na unakimbia marathoni, utaona viatu vya mazoezi (trainers). Mfumo unajua historia yako.
Kasi na Ukubwa (Speed and Scale) Ili kuweka ucheleweshaji (latency) mdogo, kampuni hutumia:
- Caching
- Kanzi data zilizosambazwa (Distributed databases)
- Kanzi data za vector (Vector databases)
- Usawazishaji wa mzigo (Load balancing)
Kanzi data za vector kama Pinecone au Milvus huruhusu AI kupata vitu vinavyofanana kupitia hisabati badala ya maandishi.
Utafutaji si tu hoja rahisi ya kanzi data (database query) tena. Ni mchanganyiko wa AI, kompyuta zilizosambazwa (distributed computing), na algoriti janja.
Jumuiya ya hiari ya kujifunza: https://t.me/GyaanSetuAi
