𝗩𝗲𝗰𝘁𝗼𝗿 𝗦𝗲𝗮𝗿𝗰𝗵 𝗜𝘀 𝗡𝗼𝘁 𝗘𝗻𝗼𝘂𝗴𝗵 𝗳𝗼𝗿 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗔𝗜
Tìm kiếm vector đã thay đổi việc truy xuất ngữ nghĩa. Bạn nhúng (embed) dữ liệu, nhúng một truy vấn và tìm các lân cận. Nó đã thay thế phương pháp khớp từ khóa cũ.
Nhưng AI trong môi trường production cần nhiều hơn là các embedding tương đồng. Việc truy xuất đang chuyển dịch từ một bài toán tìm lân cận sang bài toán xếp hạng và ra quyết định.
Một bản mẫu (prototype) có thể hoạt động với các vector. Nhưng một hệ thống production đòi hỏi nhiều hơn thế.
Một truy vấn thực tế của người dùng cần những yếu tố sau cùng một lúc:
- Metadata có cấu trúc và các bộ lọc
- Các quy tắc kinh doanh để tăng cường hoặc giảm thứ hạng kết quả
- Cá nhân hóa dựa trên lịch sử người dùng
- Độ tươi mới của dữ liệu và kiểm soát truy cập
- Các mô hình học máy để xếp hạng
Hầu hết các đội ngũ giải quyết vấn đề này bằng cách chắp vá các công cụ lại với nhau. Bạn kết nối một cơ sở dữ liệu vector, một công cụ tìm kiếm, một bộ xếp hạng lại (reranker) và một kho tính năng (feature store).
Điều này tạo ra các vấn đề:
- Mỗi kết nối đều làm tăng độ trễ
- Mỗi phần đều cần các hoạt động vận hành riêng
- Việc giữ cho dữ liệu đồng bộ là rất khó khăn
Vector là các mảng một chiều. Tensor là các cấu trúc đa chiều.
Tensor cho phép bạn kết hợp các embedding dày đặc (dense embeddings), các tính năng thưa (sparse features) và metadata chỉ trong một lượt xử lý. Bạn sẽ tránh được một đường ống (pipeline) bị phân mảnh.
Các mô hình mới như ColBERT sử dụng các phương pháp tiếp cận đa vector (multi-vector). Chúng không nén một tài liệu thành một điểm duy nhất. Chúng giữ lại các chi tiết ở cấp độ token. Điều này cải thiện độ liên quan nhưng lại làm hỏng các cơ sở dữ liệu vector cũ.
Các kiến trúc ưu tiên Tensor (Tensor-native architectures) coi các cấu trúc này là ưu tiên hàng đầu. Chúng không ép buộc chúng vào các hình dạng vector đơn giản.
Nếu bạn xây dựng các đường ống RAG hoặc hệ thống gợi ý, sự phân mảnh sẽ làm chậm tiến độ của bạn. Nó sẽ trở nên tồi tệ hơn khi bạn mở rộng quy mô.
Hãy tự hỏi mình những câu hỏi sau:
- Có bao nhiêu hệ thống đang được "dán" lại với nhau trong stack của bạn?
- Tổng ngân sách độ trễ của bạn là bao nhiêu?
- Cơ sở hạ tầng của bạn có thể xử lý các mô hình đa vector không?
Đọc chi tiết đầy đủ trong bản tóm tắt của GigaOm để hỗ trợ các quyết định về kiến trúc của bạn.
Source: https://dev.to/thegatewayguy/vector-search-got-you-started-production-ai-needs-tensors-41dl
Optional learning community: https://t.me/GyaanSetuAi