Етап 2: Ембедінги та семантичний пошук

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 тижні тому2min read

Етап 2: Ембедінги та семантичний пошук

Пошук за ключовими словами не спрацьовує, коли слова не збігаються точно.

Якщо в резюме вказано «team management», а в описі вакансії вимагається «leadership», звичайний пошук не видасть жодного результату. Слова різні, але значення одне й те саме.

Етап 2 вирішує цю проблему за допомогою ембедінгів та семантичного пошуку.

Як це працює:

• Токенізація: Комп'ютери не читають слова. Вони читають числа. Токенізатор розбиває текст на маленькі частини, які називаються токенами, і перетворює їх на Token IDs. Поширені слова стають одним токеном. Рідкісні слова розбиваються на кілька токенів.

• Ембедінги: Token ID — це лише мітка. Шар ембедінгів перетворює цей ID на вектор. Вектор — це довгий список чисел, який представляє значення. Замість одного числа модель використовує багато вимірів для опису концепції.

• Виміри: Уявіть ці числа як координати. Один вимір може представляти «frontend проти backend». Інший — «web проти systems». Високовимірні вектори дозволяють моделі розміщувати «React» та «JavaScript» поруч у математичному просторі.

• Семантичний пошук: Коли ви ставите запитання, система перетворює ваше запитання на вектор. Потім вона порівнює ваш вектор із векторами ваших збережених документів.

• Косинусна подібність: Вона вимірює кут між двома векторами. Якщо вектори вказують в одному напрямку, вони подібні. Це дозволяє системі знайти «resignation requirements», навіть якщо ви шукали лише «notice period».

Ключові уроки для продакшену:

Векторні бази даних: Пошук серед мільйонів векторів є повільним. Такі бази даних, як Pinecone або Qdrant, використовують індексацію, щоб знаходити найближчих сусідів за мілісекунди.
Міграція моделей: Кожна модель ембедінгів використовує інший математичний простір. Ви не можете порівняти вектор OpenAI із вектором Cohere. Якщо ви змінюєте моделі, ви повинні заново створити ембедінги для всіх ваших даних.
Вартість проти ROI: Повторне створення ембедінгів для мільйонів фрагментів — це дорого. Компанії часто залишаються на старих моделях, якщо приріст точності не виправдовує витрат на міграцію.
Завжди зберігайте ваші сирі текстові фрагменти. Якщо ви пізніше оновите модель, ви зможете використати старий текст для створення нових векторів.

Етап 2 — це те місце, де з'являється інтелект.

Джерело: https://dev.to/surajrkhonde/phase-2-embeddings-semantic-search-3lco

Опціональна спільнота для навчання: https://t.me/GyaanSetuAi

Етап 2: Ембедінги та семантичний пошук

Continue reading

Магія ембедінгів