𝗩𝗲𝗰𝘁𝗼𝗿 𝗦𝗲𝗮𝗿𝗰𝗵 𝗜𝘀 𝗡𝗼𝘁 𝗘𝗻𝗼𝘂𝗴𝗵 𝗳𝗼𝗿 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗔𝗜

ವೆಕ್ಟರ್ ಸರ್ಚ್ (Vector search) ಎಂಬುದು ಸೆಂಮ್ಯಾಂಟಿಕ್ ರಿಟ್ರಿವಲ್ (semantic retrieval) ವಿಧಾನವನ್ನು ಬದಲಾಯಿಸಿದೆ. ನೀವು ಡೇಟಾವನ್ನು ಎಂಬೆಡ್ (embed) ಮಾಡುತ್ತೀರಿ, ಕ್ವೇರಿಯನ್ನು ಎಂಬೆಡ್ ಮಾಡುತ್ತೀರಿ ಮತ್ತು ನೆರೆಹೊರೆಯ ಡೇಟಾವನ್ನು (neighbors) ಹುಡುಕುತ್ತೀರಿ. ಇದು ಹಳೆಯ ಕೀವರ್ಡ್ ಮ್ಯಾಚಿಂಗ್ (keyword matching) ವಿಧಾನಕ್ಕೆ ಪರ್ಯಾಯವಾಗಿದೆ.

ಆದರೆ ಪ್ರೊಡಕ್ಷನ್ AI ಗೆ ಕೇವಲ ಸಮಾನವಾದ ಎಂಬೆಡಿಂಗ್‌ಗಳಿಗಿಂತ ಹೆಚ್ಚಿನದಿನ ಅಗತ್ಯವಿದೆ. ರಿಟ್ರಿವಲ್ (Retrieval) ಎಂಬುದು ಈಗ ನೆರೆಹೊರೆಯ ಡೇಟಾವನ್ನು ಹುಡುಕುವ ಸಮಸ್ಯೆಯಿಂದ ರ‍್ಯಾಂಕಿಂಗ್ (ranking) ಮತ್ತು ನಿರ್ಧಾರ ತೆಗೆದುಕೊಳ್ಳುವ ಸಮಸ್ಯೆಯಾಗಿ ಬದಲಾಗುತ್ತಿದೆ.

ಒಂದು ಪ್ರೊಟೊಟೈಪ್ (prototype) ವೆಕ್ಟರ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಆದರೆ ಒಂದು ಪ್ರೊಡಕ್ಷನ್ ಸಿಸ್ಟಮ್‌ಗೆ ಹೆಚ್ಚಿನದಿನ ಅಗತ್ಯವಿದೆ.

ಒಂದು ನೈಜ ಬಳಕೆದಾರರ ಕ್ವೇರಿಗೆ ಈ ಕೆಳಗಿನವುಗಳು ಏಕಕಾಲದಲ್ಲಿ ಬೇಕಾಗುತ್ತವೆ:

ಹೆಚ್ಚಿನ ತಂಡಗಳು ವಿವಿಧ ಪರಿಕರಗಳನ್ನು (tools) ಒಟ್ಟಿಗೆ ಜೋಡಿಸುವ ಮೂಲಕ ಇದನ್ನು ಪರಿಹರಿಸುತ್ತವೆ. ನೀವು ವೆಕ್ಟರ್ ಡೇಟಾಬೇಸ್, ಸರ್ಚ್ ಇಂಜಿನ್, ರೀರಾಂಕರ್ (reranker) ಮತ್ತು ಫೀಚರ್ ಸ್ಟೋರ್ ಅನ್ನು ಸಂಪರ್ಕಿಸುತ್ತೀರಿ.

ಇದು ಈ ಕೆಳಗಿನ ಸಮಸ್ಯೆಗಳನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ:

ವೆಕ್ಟರ್‌ಗಳು ಏಕ-ಆಯಾಮದ ಅರೇಗಳಾಗಿವೆ (one-dimensional arrays). ಟೆನ್ಸರ್ಸ್‌ಗಳು (Tensors) ಬಹು-ಆಯಾಮದ ರಚನೆಗಳಾಗಿವೆ (multi-dimensional structures).

ಟೆನ್ಸರ್ಸ್‌ಗಳು ಡೆನ್ಸ್ ಎಂಬೆಡಿಂಗ್‌ಗಳು (dense embeddings), ಸ್ಪಾರ್ಸ್ ಫೀಚರ್‌ಗಳು (sparse features) ಮತ್ತು ಮೆಟಾಡೇಟಾವನ್ನು ಒಂದೇ ಹಂತದಲ್ಲಿ ಸಂಯೋಜಿಸಲು ನಿಮಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತವೆ. ಇದರಿಂದ ನೀವು ಚದುರಿದ ಪೈಪ್‌ಲೈನ್‌ನಿಂದ (fragmented pipeline) ತಪ್ಪಿಸಿಕೊಳ್ಳಬಹುದು.

ColBERT ನಂತಹ ಹೊಸ ಮಾಡೆಲ್‌ಗಳು ಮಲ್ಟಿ-ವೆಕ್ಟರ್ ವಿಧಾನಗಳನ್ನು ಬಳಸುತ್ತವೆ. ಅವು ಒಂದು ದಾಖಲೆಯನ್ನು ಕೇವಲ ಒಂದು ಪಾಯಿಂಟ್‌ಗೆ ಸಂಕುಚಿತಗೊಳಿಸುವುದಿಲ್ಲ. ಅವು ಟೋಕನ್-ಮಟ್ಟದ ವಿವರಗಳನ್ನು (token-level details) ಉಳಿಸಿಕೊಳ್ಳುತ್ತವೆ. ಇದು ಪ್ರಸ್ತುತತೆಯನ್ನು (relevance) ಸುಧಾರಿಸುತ್ತದೆ ಆದರೆ ಹಳೆಯ ವೆಕ್ಟರ್ ಡೇಟಾಬೇಸ್‌ಗಳಿಗೆ ಅಡ್ಡಿಯಾಗಬಹುದು.

ಟೆನ್ಸರ್-ನೇಟಿವ್ ಆರ್ಕಿಟೆಕ್ಚರ್‌ಗಳು (Tensor-native architectures) ಈ ರಚನೆಗಳನ್ನು ಪ್ರಮುಖ ಆದ್ಯತೆಯಾಗಿ ಪರಿಗಣಿಸುತ್ತವೆ. ಅವುಗಳನ್ನು ಕೇವಲ ಸರಳ ವೆಕ್ಟರ್ ಆಕಾರಗಳಿಗೆ ಸೀಮಿತಗೊಳಿಸುವುದಿಲ್ಲ.

ನೀವು RAG ಪೈಪ್‌ಲೈನ್‌ಗಳು ಅಥವಾ ರೆಕಮೆಂಡೇಶನ್ ಸಿಸ್ಟಮ್‌ಗಳನ್ನು (recommendation systems) ನಿರ್ಮಿಸುತ್ತಿದ್ದರೆ, ಈ ಚದುರಿದ ವ್ಯವಸ್ಥೆಯು ನಿಮ್ಮ ವೇಗವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ. ವ್ಯವಸ್ಥೆಯು ಬೆಳೆದಂತೆ ಇದು ಮತ್ತಷ್ಟು ಕಷ್ಟವಾಗುತ್ತದೆ.

ನಿಮ್ಮನ್ನು ನೀವೇ ಈ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಿಕೊಳ್ಳಿ:

ನಿಮ್ಮ ಆರ್ಕಿಟೆಕ್ಚರಲ್ ನಿರ್ಧಾರಗಳಿಗೆ ಸಹಾಯ ಮಾಡಲು GigaOm ಬ್ರೀಫ್‌ನಲ್ಲಿ (brief) ಸಂಪೂರ್ಣ ವಿವರಗಳನ್ನು ಓದಿ.

Source: https://dev.to/thegatewayguy/vector-search-got-you-started-production-ai-needs-tensors-41dl

Optional learning community: https://t.me/GyaanSetuAi