什么是向量数据库?
在阅读有关 AI 搜索或 RAG 的内容时,你很可能会看到“向量数据库”这个术语。
向量数据库将数据存储为向量。这些向量是代表含义的数字列表。它不是寻找精确的词语匹配,而是通过相似性来查找项目。
普通数据库适用于精确的问题。它们可以找到特定的用户 ID 或特定的日期。但当你询问具有相似含义的内容时,它们就会失效。
向量数据库解决了这个问题。它们使用嵌入(embeddings)。AI 模型将文本、图像或音频转换为数字指纹。含义相似的项目会获得在数学空间中彼此靠近的向量。
该过程分为三个步骤:
- 嵌入 (Embed):AI 模型将你的数据转换为向量。
- 索引 (Index):数据库以一种能够实现快速搜索的方式存储这些向量。
- 查询 (Query):你的搜索也会变成一个向量。数据库会找到与你的搜索最接近的向量。
这就是为什么搜索“如何重置我的密码”时,能找到标题为“找回遗忘的登录信息”的文章。虽然词语不同,但含义相同。
你不需要在普通数据库和向量数据库之间做出选择。大多数应用会同时使用两者。你将结构化的客户记录保存在关系型数据库中,而将可搜索的含义存储在向量数据库中。一些工具(如 pgvector)允许你直接在 PostgreSQL 中添加向量搜索。
向量数据库为最实用的 AI 功能提供动力:
- 语义搜索。
- 产品推荐。
- RAG 中的检索步骤。
如果你构建的 AI 需要大规模查找相关信息,那么你就需要一个向量数据库。
热门选项包括:
- Pinecone
- Weaviate
- Qdrant
- Milvus
- Chroma
- pgvector
来源:https://dev.to/ricco020/what-is-a-vector-database-a-plain-english-guide-2026-29c
可选学习社区:https://t.me/GyaanSetuAi