வெக்டர் தரவுத்தளம் (Vector Database) என்றால் என்ன?

AI தேடல் அல்லது RAG பற்றிப் படிக்கும்போது, நீங்கள் 'vector database' என்ற சொல்லைக் கேள்விப்பட்டிருக்கலாம்.

ஒரு vector database தரவை வெக்டர்களாகச் சேமிக்கிறது. இவை பொருளைப் பிரதிபலிக்கும் எண்களின் பட்டியல்கள் ஆகும். துல்லியமான வார்த்தை ஒற்றுமைகளைத் தேடுவதற்குப் பதிலாக, இது ஒற்றுமையின் அடிப்படையில் பொருட்களைக் கண்டறிகிறது.

இந்தத் தொழில்நுட்பம் AI தேடலை மிகவும் புத்திசாலித்தனமாக மாற்றுகிறது.

பாரம்பரிய தரவுத்தளங்கள் துல்லியமான கேள்விகளுக்குச் சிறப்பாகச் செயல்படுகின்றன. நீங்கள் ஒரு குறிப்பிட்ட user ID அல்லது கடந்த வாரத்தின் ஆர்டர் பட்டியலைக் கேட்டால் அவை சரியாகச் செயல்படும். ஆனால், ஒரே மாதிரியான பொருளைக் கொண்ட விஷயங்களைக் கேட்கும்போது அவை சிரமப்படுகின்றன.

ஒரு vector database இதைத் தீர்க்கிறது. இது embeddings முறையைப் பயன்படுத்துகிறது. இவை உரை (text), படங்கள் அல்லது ஆடியோ ஆகியவற்றிற்கான எண் வடிவிலான அடையாளங்கள் (numeric fingerprints) ஆகும். ஒரே மாதிரியான பொருளைக் கொண்ட பொருட்களின் வெக்டர்கள் ஒன்றுக்கொன்று நெருக்கமாக இருக்கும். நீங்கள் தேடும்போது, உங்கள் தேடலுக்கு மிக நெருக்கமான முடிவுகளைத் தரவுத்தளம் வழங்குகிறது.

இந்தச் செயல்முறை மூன்று படிகளைப் பின்பற்றுகிறது:

  • Embed: ஒரு AI மாடல் ஒரு ஆவணம் அல்லது படத்தை வெக்டராக மாற்றுகிறது.
  • Index: வேகமான தேடலுக்காகத் தரவுத்தளம் இந்த வெக்டர்களை ஒரு சிறப்பு குறியீட்டில் (index) சேமிக்கிறது.
  • Query: உங்கள் தேடலும் ஒரு வெக்டராக மாற்றப்படுகிறது. தரவுத்தளம் அதற்கு மிக நெருக்கமான வெக்டர்களைக் கண்டறிகிறது.

இதனால்தான் "how to reset my password" என்று நீங்கள் தேடினால், "recover a forgotten login" என்ற தலைப்பிலான கட்டுரையைத் தேடலால் கண்டறிய முடிகிறது. வார்த்தைகள் வேறாக இருந்தாலும், பொருள் ஒன்றுதான்.

உங்கள் தற்போதைய தரவுத்தளத்தை நீங்கள் மாற்ற வேண்டிய அவசியமில்லை. பெரும்பாலான செயலிகள் இரண்டையுமே பயன்படுத்துகின்றன.

  • Relational databases உங்கள் கட்டமைக்கப்பட்ட பதிவுகள் மற்றும் துல்லியமான தரவுகளைச் சேமிக்கின்றன.
  • Vector databases ஒற்றுமை மற்றும் பொருளைக் கையாளுகின்றன.

pgvector போன்ற கருவிகள் PostgreSQL-இல் vector search-ஐச் சேர்க்க அனுமதிக்கின்றன. இது இரண்டு வகையான தரவுகளையும் ஒரே இடத்தில் வைத்திருக்க உதவுகிறது.

Vector databases semantic search, தயாரிப்புப் பரிந்துரைகள் (product recommendations) மற்றும் RAG-இல் உள்ள retrieval படிநிலைக்குத் தேவையான சக்தியை வழங்குகின்றன. ஒரு AI உதவியாளர் உங்களுக்குப் பதிலளிப்பதற்கு முன், பொருத்தமான உரையைத் தேடி எடுக்கும் இயந்திரமாக இவை செயல்படுகின்றன.

2026-இல் பிரபலமான விருப்பங்கள்:

  • Pinecone
  • Weaviate
  • Qdrant
  • Milvus
  • Chroma
  • pgvector

உங்கள் அளவின் (scale) அடிப்படையிலும், நீங்கள் ஒரு managed service அல்லது self-hosted setup-ஐ விரும்புகிறீர்களா என்பதையும் பொறுத்துத் தேர்ந்தெடுங்கள்.

Source: https://dev.to/ricco020/what-is-a-vector-database-a-plain-english-guide-2026-29c