Почему ваша RAG-система галлюцинирует
Точность поиска вашей RAG-системы составляет 34%. Вы следовали всем туториалам. Вы использовали правильные библиотеки. Вы выбрали размер чанка из статьи в блоге. И все же система дает сбой.
Это не проблема инструментов. Это проблема основ.
Когда вы накладываете библиотеки друг на друга, не понимая лежащих в их основе уровней, вы создаете «долг абстракции». Вы выигрываете в скорости, но теряете возможность отладки. Вы строите «черный ящик».
Чтобы исправить ваш RAG-конвейер, вы должны освоить три уровня:
Стратегия чанкинга Размер чанка — это семантическое решение. Если ваши чанки составляют 512 токенов, вы извлекаете абзацы. Если ваши вопросы требуют связывания идей из множества абзацев, ваши чанки слишком малы. Вы должны решить, какой объем контекста передается между чанками.
Модели эмбеддингов Плотные (dense) эмбеддинги улавливают смысл, но теряют точный синтаксис. Модель может воспринимать «error 403» и «error 404» как почти идентичные. Вы должны понимать, что именно улавливает ваша модель. Юридическому контракту нужны другие эмбеддинги, чем репозиторию кода.
Retrieval vs. Recall (Поиск против полноты) Векторный поиск находит все потенциально релевантное. Это полнота (recall). Для промышленного RAG нужна точность (precision). Вам нужен точный ответ, а не десять похожих абзацев. Вот почему вам необходим гибридный поиск.
Гибридный поиск сочетает плотные векторы с поиском по ключевым словам (BM25).
- Чисто семантический поиск пропускает точные коды или ID.
- Чисто ключевой поиск упускает концептуальный смысл.
- Гибридный поиск взвешивает оба подхода, чтобы найти истину.
Правильный вес не прописан в руководстве. Вы находите его путем тестирования на ваших конкретных данных.
Перестаньте полагаться на магию. Если вы не можете построить базовый RAG-конвейер с нуля, вы не готовы к Agentic RAG. Сложность возрастает многократно, когда вы не понимаете основ.
Сделайте эти четыре вещи перед своим следующим проектом:
- Проведите бенчмаркинг чанкинга. Протестируйте три разных размера. Измерьте точность (precision) для top-1 и top-5.
- Тестируйте эмбеддинги на реальных данных. Не используйте синтетические тесты. Используйте реальные запросы ваших пользователей.
- Логируйте ошибки. В течение двух недель записывайте каждый неудачный запрос. Ищите закономерности в том, что пропускает ваш поиск.
- Внедрите BM25 хотя бы один раз. Даже если позже вы будете использовать библиотеку, вам нужно понять базовый уровень поиска по ключевым словам.
Библиотеки экономят вам время. Понимание обеспечивает вам надежность.
Optional learning community: https://t.me/GyaanSetuAi