Wyszukiwanie wektorowe to za mało dla produkcyjnej sztucznej inteligencji

Wyszukiwanie wektorowe zmieniło semantyczne pobieranie danych (retrieval). Tworzysz osadzenia (embeddings) dla danych i zapytania, a następnie znajdujesz najbliższych sąsiadów. Zastąpiło ono stare dopasowywanie słów kluczowych.

Jednak produkcyjna sztuczna inteligencja potrzebuje czegoś więcej niż tylko podobnych osadzeń. Proces pobierania danych ewoluuje z problemu znajdowania sąsiadów w problem rankingu i podejmowania decyzji.

Prototyp może działać na wektorach. System produkcyjny wymaga czegoś więcej.

Prawdziwe zapytanie użytkownika wymaga poniższych rzeczy jednocześnie:

Większość zespołów rozwiązuje to poprzez łączenie różnych narzędzi. Łączysz bazę danych wektorowych, silnik wyszukiwania, reranker i feature store.

Tworzy to problemy:

Wektory to tablice jednowymiarowe. Tensory to struktury wielowymiarowe.

Tensory pozwalają połączyć gęste osadzenia (dense embeddings), rzadkie cechy (sparse features) i metadane w jednym przebiegu. Dzięki temu unikasz rozproszonego potoku (pipeline).

Nowe modele, takie jak ColBERT, wykorzystują podejścia wielowektorowe. Nie kompresują one dokumentu do jednego punktu, lecz zachowują szczegóły na poziomie tokenów. Poprawia to trafność, ale uniemożliwia pracę starym bazom danych wektorowych.

Architektury natywne dla tensorów traktują te struktury jako priorytet. Nie wymuszają na nich przyjmowania prostych kształtów wektorowych.

Jeśli budujesz potoki RAG lub systemy rekomendacyjne, fragmentacja będzie Cię spowalniać. Problem ten nasila się wraz ze wzrostem skali.

Zadaj sobie te pytania:

Przeczytaj pełne szczegóły w raporcie GigaOm, aby wspomóc swoje decyzje architektoniczne.

Źródło: https://dev.to/thegatewayguy/vector-search-got-you-started-production-ai-needs-tensors-41dl

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi