پایگاه داده برداری چیست؟
احتمالاً هنگام مطالعه درباره جستجوی هوش مصنوعی یا RAG، اصطلاح vector database را شنیده باشید.
یک پایگاه داده برداری، دادهها را به صورت بردار ذخیره میکند. اینها لیستهایی از اعداد هستند که معنا را در خود جای میدهند. این پایگاه داده به جای جستجوی تطابق دقیق کلمات، موارد را بر اساس شباهت پیدا میکند.
این فناوری باعث میشود جستجوی هوش مصنوعی هوشمندانه به نظر برسد.
پایگاههای داده سنتی برای پرسشهای دقیق عملکرد خوبی دارند. مثلاً وقتی یک شناسه کاربری خاص یا لیستی از سفارشهای هفته گذشته را میخواهید. اما زمانی که چیزهایی با معانی مشابه را جستجو میکنید، آنها دچار مشکل میشوند.
یک پایگاه داده برداری این مشکل را حل میکند. این پایگاه داده از embeddingها استفاده میکند. اینها اثرانگشتهای عددی برای متن، تصویر یا صوت هستند. مواردی که معانی مشابه دارند، بردارهایی دارند که در نزدیکی یکدیگر قرار میگیرند. وقتی جستجو میکنید، پایگاه داده نتایجی را برمیگرداند که به پرسوجوی شما نزدیکتر هستند.
این فرآیند سه مرحله را دنبال میکند:
- Embed: یک مدل هوش مصنوعی، یک سند یا تصویر را به یک بردار تبدیل میکند.
- Index: پایگاه داده این بردارها را در یک ایندکس ویژه ذخیره میکند تا امکان جستجوی سریع فراهم شود.
- Query: جستجوی شما نیز به یک بردار تبدیل میشود. پایگاه داده بردارهایی را که به آن نزدیکتر هستند، پیدا میکند.
به همین دلیل است که جستجوی عبارت "how to reset my password" میتواند مقالهای با عنوان "recover a forgotten login" را پیدا کند. کلمات متفاوت هستند، اما معنا یکسان است.
نیازی نیست پایگاه داده فعلی خود را جایگزین کنید. اکثر اپلیکیشنها از هر دو استفاده میکنند.
- پایگاههای داده رابطهای (Relational databases)، سوابق ساختاریافته و دادههای دقیق شما را نگه میدارند.
- پایگاههای داده برداری (Vector databases)، شباهت و معنا را مدیریت میکنند.
ابزارهایی مانند pgvector به شما اجازه میدهند جستجوی برداری را به PostgreSQL اضافه کنید. این کار باعث میشود هر دو نوع داده در یک مکان نگهداری شوند.
پایگاههای داده برداری موتور محرک جستجوی معنایی (semantic search)، پیشنهاد محصولات و مرحله بازیابی (retrieval) در RAG هستند. آنها مانند موتوری عمل میکنند که پیش از پاسخ دادن دستیار هوش مصنوعی، متنهای مرتبط را فراخوانی میکند.
گزینههای محبوب در سال ۲۰۲۶ عبارتند از:
- Pinecone
- Weaviate
- Qdrant
- Milvus
- Chroma
- pgvector
بر اساس مقیاس خود و اینکه آیا یک سرویس مدیریتشده (managed service) میخواهید یا یک راهاندازی خودمیزبان (self-hosted)، انتخاب کنید.
منبع: https://dev.to/ricco020/what-is-a-vector-database-a-plain-english-guide-2026-29c