Від «Я нічого не розумів» до створення RAG-додатка

Учора я провів увесь день, читаючи 31 сторінку власних нотаток з NLP.

Я нічого не розумів.

Я думав, що проблема в мені. Але це було не так. Проблема була в моєму методі. Читання нотаток — це не навчання. Мої нотатки були призначені для експертів, а не для початківців.

Я змінив підхід. Я перестав читати. Замість цього я почав ставити запитання. Я використовував прості приклади. Я відмовився від технічних термінів, поки не зрозумів саму концепцію.

До кінця дня я створив RAG-додаток. Ось як я вивчив чотири стовпи NLP.

  1. Bag of Words Комп'ютери розуміють лише математику. Щоб обробляти текст, потрібно перетворити слова на числа.

Уявіть, що ви хочете відсортувати електронні листи на спам та не спам. Ви виписуєте кожне слово з ваших листів. Ви підраховуєте, скільки разів зустрічається кожне слово. Це перетворює електронний лист на рядок чисел.

У чому недолік? Він ігнорує порядок слів. «Dog bites man» та «man bites dog» для цього методу виглядають однаково.

  1. TF-IDF Bag of Words сприймає кожне слово однаково. Але «the» не таке важливе, як «viagra».

TF-IDF використовує два правила:

Ця математична модель приглушує слова-паразити, як-от «the», і виділяє важливі, рідкісні слова.

  1. Embeddings Bag of Words вважає, що «money» та «cash» не пов'язані між собою. Embeddings вирішують цю проблему.

Уявіть величезну карту. Кожне слово — це точка на цій карті. Слова зі схожим значенням розташовані поруч. «Money» та «cash» — сусіди. «Banana» — далеко.

Комп'ютер вивчає ці розташування, аналізуючи оточення слова. Якщо «money» та «cash» з'являються поруч із «bank» та «pay», комп'ютер розміщує їх близько одне до одного.

  1. RAG (Retrieval-Augmented Generation) Саме тут усе сходиться докупи.

Якщо кожна нотатка у ваших файлах — це точка на карті, ви можете знаходити відповіді, шукаючи найближчі точки.

Процес RAG:

Це заважає ШІ гадати або брехати. Це змушує ШІ використовувати ваші реальні дані.

Я створив свій додаток Synapse, використовуючи ці кроки. Я пройшов шлях від нуля до працюючої системи за один день.

Урок: Припиніть читати. Почніть ставити запитання. Якщо ви не можете пояснити концепцію за допомогою простої аналогії, ви ще її не знаєте. Створіть щось, щоб довести, що ви розумієте.

Джерело: https://dev.to/sabimantock/from-i-understood-nothing-to-building-a-rag-app-4033

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi