پایگاه داده برداری چیست؟

احتمالاً هنگام مطالعه درباره جستجوی هوش مصنوعی یا RAG، اصطلاح vector database را شنیده باشید.

یک پایگاه داده برداری، داده‌ها را به صورت بردار ذخیره می‌کند. این‌ها لیست‌هایی از اعداد هستند که معنا را در خود جای می‌دهند. این پایگاه داده به جای جستجوی تطابق دقیق کلمات، موارد را بر اساس شباهت پیدا می‌کند.

این فناوری باعث می‌شود جستجوی هوش مصنوعی هوشمندانه به نظر برسد.

پایگاه‌های داده سنتی برای پرسش‌های دقیق عملکرد خوبی دارند. مثلاً وقتی یک شناسه کاربری خاص یا لیستی از سفارش‌های هفته گذشته را می‌خواهید. اما زمانی که چیزهایی با معانی مشابه را جستجو می‌کنید، آن‌ها دچار مشکل می‌شوند.

یک پایگاه داده برداری این مشکل را حل می‌کند. این پایگاه داده از embeddingها استفاده می‌کند. این‌ها اثرانگشت‌های عددی برای متن، تصویر یا صوت هستند. مواردی که معانی مشابه دارند، بردارهایی دارند که در نزدیکی یکدیگر قرار می‌گیرند. وقتی جستجو می‌کنید، پایگاه داده نتایجی را برمی‌گرداند که به پرس‌وجوی شما نزدیک‌تر هستند.

این فرآیند سه مرحله را دنبال می‌کند:

  • Embed: یک مدل هوش مصنوعی، یک سند یا تصویر را به یک بردار تبدیل می‌کند.
  • Index: پایگاه داده این بردارها را در یک ایندکس ویژه ذخیره می‌کند تا امکان جستجوی سریع فراهم شود.
  • Query: جستجوی شما نیز به یک بردار تبدیل می‌شود. پایگاه داده بردارهایی را که به آن نزدیک‌تر هستند، پیدا می‌کند.

به همین دلیل است که جستجوی عبارت "how to reset my password" می‌تواند مقاله‌ای با عنوان "recover a forgotten login" را پیدا کند. کلمات متفاوت هستند، اما معنا یکسان است.

نیازی نیست پایگاه داده فعلی خود را جایگزین کنید. اکثر اپلیکیشن‌ها از هر دو استفاده می‌کنند.

  • پایگاه‌های داده رابطه‌ای (Relational databases)، سوابق ساختاریافته و داده‌های دقیق شما را نگه می‌دارند.
  • پایگاه‌های داده برداری (Vector databases)، شباهت و معنا را مدیریت می‌کنند.

ابزارهایی مانند pgvector به شما اجازه می‌دهند جستجوی برداری را به PostgreSQL اضافه کنید. این کار باعث می‌شود هر دو نوع داده در یک مکان نگهداری شوند.

پایگاه‌های داده برداری موتور محرک جستجوی معنایی (semantic search)، پیشنهاد محصولات و مرحله بازیابی (retrieval) در RAG هستند. آن‌ها مانند موتوری عمل می‌کنند که پیش از پاسخ دادن دستیار هوش مصنوعی، متن‌های مرتبط را فراخوانی می‌کند.

گزینه‌های محبوب در سال ۲۰۲۶ عبارتند از:

  • Pinecone
  • Weaviate
  • Qdrant
  • Milvus
  • Chroma
  • pgvector

بر اساس مقیاس خود و اینکه آیا یک سرویس مدیریت‌شده (managed service) می‌خواهید یا یک راه‌اندازی خودمیزبان (self-hosted)، انتخاب کنید.

منبع: https://dev.to/ricco020/what-is-a-vector-database-a-plain-english-guide-2026-29c