מהו מסד נתונים וקטורי?
סביר להניח שתיתקלו במונח vector database כשאתם קוראים על חיפוש מבוסס AI או RAG.
מסד נתונים וקטורי שומר נתונים כווקטורים. אלו הן רשימות של מספרים המייצגים משמעות. במקום לחפש התאמות מילים מדויקות, הוא מוצא פריטים על בסיס דמיון.
מסדי נתונים רגילים עובדים עבור שאלות מדויקות. הם מוצאים מזהה משתמש (user ID) ספציפי או תאריך מסוים. הם נכשלים כשמבקשים דברים בעלי משמעויות דומות.
מסדי נתונים וקטוריים פותרים זאת. הם משתמשים ב-embeddings. מודל AI הופך טקסט, תמונות או אודיו ל"טביעות אצבע" מספריות. פריטים בעלי משמעויות דומות מקבלים וקטורים שנמצאים קרוב זה לזה במרחב מתמטי.
התהליך מורכב משלושה שלבים:
- Embed: מודל AI הופך את הנתונים שלכם לווקטור.
- Index: מסד הנתונים שומר את הווקטורים הללו בדרך שמאפשרת חיפוש מהיר.
- Query: גם החיפוש שלכם הופך לווקטור. מסד הנתונים מוצא את הווקטורים הקרובים ביותר לחיפוש שלכם.
זו הסיבה שחיפוש עבור "how to reset my password" מוצא מאמר שכותרתו "recover a forgotten login". המילים שונות, אך המשמעות זהה.
אין צורך לבחור בין מסד נתונים רגיל לבין מסד נתונים וקטורי. רוב האפליקציות משתמשות בשניהם. אתכם שומרים רשומות לקוחות מובנות במסד נתונים רלציוני (relational database). את המשמעות הניתנת לחיפוש אתם שומרים במסד נתונים וקטורי. כלים מסוימים, כמו pgvector, מאפשרים לכם להוסיף חיפוש וקטורי ישירות ל-PostgreSQL.
מסדי נתונים וקטוריים מניעים את תכונות ה-AI השימושיות ביותר:
- חיפוש סמנטי (Semantic search).
- המלצות מוצרים.
- שלב השליפה (retrieval) ב-RAG.
אם אתם בונים AI שצריך למצוא מידע רלוונטי בקנה מידה גדול (at scale), אתם זקוקים למסד נתונים וקטורי.
אפשרויות פופולריות כוללות:
- Pinecone
- Weaviate
- Qdrant
- Milvus
- Chroma
- pgvector
מקור: https://dev.to/ricco020/what-is-a-vector-database-a-plain-english-guide-2026-29c
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi