当你在 Netflix、Spotify 或 Amazon 上进行搜索时,会发生什么?
你输入几个词。数百万次计算随之发生。
每天,数十亿人都在进行搜索。
- Netflix 上的《星际穿越》
- Spotify 上的《Shape of You》
- Amazon 上的无线鼠标
结果瞬间呈现。这看起来很简单。但在那个搜索框背后,运行着一个庞大的工程系统。
现代搜索不仅仅是匹配单词。它能理解含义、预测意图,并在毫秒内实现结果的个性化。
以下是搜索查询的历程:
查询预处理 系统将你的句子拆解成片段。它会对文本进行清洗,修正拼写错误并扩展同义词。如果你搜索“sneakers”(运动鞋),系统知道你指的是“shoes”(鞋子)。
倒排索引 Amazon 拥有数百万件商品。它不会逐一检查每件商品,那样太慢了。相反,它使用倒排索引。这就像教科书的索引一样,将关键词直接映射到商品 ID。这能将数百万个项目缩减到几千个。
语义搜索 传统搜索寻找精确的单词。现代搜索寻找含义。AI 将单词转换为被称为 embeddings(嵌入)的数字。
在这个数学空间中,“dog”(狗)靠近“puppy”(小狗)。“Laptop”(笔记本电脑)靠近“notebook”(笔记本)。即使单词不匹配,系统也能找到正确的结果,因为它们的含义很接近。
- 排序 系统找到匹配项后,会对它们进行排序。它使用如下信号:
- 相关性
- 流行度
- 评分
- 购买历史
- 配送速度
得分最高的会出现在顶部。
个性化 同样的搜索会给不同的人带来不同的结果。如果你搜索“shoes”(鞋子)且通常购买足球装备,你会看到足球鞋(cleats)。如果你搜索“shoes”且经常跑马拉松,你会看到训练鞋(trainers)。系统了解你的历史记录。
速度与规模 为了保持低延迟,公司会使用:
- 缓存
- 分布式数据库
- 向量数据库
- 负载均衡
像 Pinecone 或 Milvus 这样的向量数据库允许 AI 通过数学而非文本来寻找相似项。
搜索不再是一个简单的数据库查询。它是 AI、分布式计算和智能算法的结合体。
可选学习社区:https://t.me/GyaanSetuAi
