Điều gì xảy ra khi bạn tìm kiếm trên Netflix, Spotify hoặc Amazon?
Bạn nhập một vài từ. Hàng triệu phép tính diễn ra.
Mỗi ngày, hàng tỷ người tìm kiếm mọi thứ.
- Interstellar trên Netflix
- Shape of You trên Spotify
- Chuột không dây trên Amazon
Kết quả xuất hiện ngay lập tức. Cảm giác thật đơn giản. Nhưng đằng sau thanh tìm kiếm đó là một hệ thống kỹ thuật khổng lồ đang hoạt động.
Tìm kiếm hiện đại không chỉ dừng lại ở việc khớp các từ ngữ. Nó hiểu ý nghĩa, dự đoán ý định và cá nhân hóa kết quả chỉ trong vài mili giây.
Dưới đây là hành trình của một truy vấn tìm kiếm:
Tiền xử lý truy vấn (Query Preprocessing) Hệ thống chia câu của bạn thành các phần nhỏ. Nó làm sạch văn bản, sửa lỗi chính tả và mở rộng các từ đồng nghĩa. Nếu bạn tìm kiếm "sneakers", hệ thống sẽ hiểu bạn đang muốn tìm "shoes" (giày).
Chỉ mục đảo ngược (The Inverted Index) Amazon có hàng triệu sản phẩm. Nó không kiểm tra từng sản phẩm một, vì việc đó sẽ mất quá nhiều thời gian. Thay vào đó, nó sử dụng một chỉ mục đảo ngược. Cách thức này hoạt động giống như mục lục của một cuốn sách giáo khoa. Nó ánh xạ trực tiếp các từ khóa tới ID sản phẩm. Điều này giúp giảm từ hàng triệu mặt hàng xuống còn vài nghìn.
Tìm kiếm ngữ nghĩa (Semantic Search) Tìm kiếm truyền thống tìm kiếm các từ chính xác. Tìm kiếm hiện đại tìm kiếm ý nghĩa. AI chuyển đổi các từ thành các con số được gọi là embeddings (vectơ nhúng).
Trong không gian toán học này, "dog" nằm gần "puppy". "Laptop" nằm gần "notebook". Ngay cả khi các từ không khớp nhau, hệ thống vẫn tìm thấy kết quả đúng vì ý nghĩa của chúng gần nhau.
- Xếp hạng (Ranking) Hệ thống tìm các kết quả khớp, sau đó xếp hạng chúng. Nó sử dụng các tín hiệu như:
- Độ liên quan
- Độ phổ biến
- Đánh giá
- Lịch sử mua hàng
- Tốc độ giao hàng
Những kết quả có điểm cao nhất sẽ xuất hiện ở trên cùng.
Cá nhân hóa (Personalization) Cùng một tìm kiếm nhưng sẽ cho ra các kết quả khác nhau đối với những người khác nhau. Nếu bạn tìm "shoes" và thường xuyên mua đồ bóng đá, bạn sẽ thấy giày đinh (cleats). Nếu bạn tìm "shoes" và là người chạy marathon, bạn sẽ thấy giày chạy bộ (trainers). Hệ thống hiểu rõ lịch sử của bạn.
Tốc độ và Quy mô (Speed and Scale) Để giữ độ trễ thấp, các công ty sử dụng:
- Caching (Bộ nhớ đệm)
- Distributed databases (Cơ sở dữ liệu phân tán)
- Vector databases (Cơ sở dữ liệu vectơ)
- Load balancing (Cân bằng tải)
Các cơ sở dữ liệu vectơ như Pinecone hoặc Milvus cho phép AI tìm các mục tương tự thông qua toán học thay vì văn bản.
Tìm kiếm không còn là một truy vấn cơ sở dữ liệu đơn thuần nữa. Nó là sự kết hợp giữa AI, tính toán phân tán và các thuật toán thông minh.
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi
